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1 Einleitung 


In den Anfangsjahren des Computerzeitalters hielt sich die Vermutung 
unter den meisten Ingenieuren, dass die rechnergestützte Bildverarbei- 
tung niemals besser sein könnte als die visuellen Wahrnehmungsfähigkei- 
ten eines Kleinkindes [138]. Seitdem haben sich nicht nur bahnbrechende 
Verbesserungen in der klassischen Bildverarbeitung ergeben, sondern 
mit dem Durchbruch von AlexNet [92] beim ImageNet-Wettbewerb 2012 
haben auch konvolutionäre neuronale Netze (engl. Concolutional Neural 
Networks, kurz: CNNs) Eingang in die moderne Bildverarbeitung und dar- 
über hinaus gefunden: Moderne CNNs sind nicht nur Stand der Technik 
in bildbasierten Klassifikations-, Detektions- sowie Segmentierungsauf- 
gaben und übertreffen damit selbst die menschliche Wahrnehmung [38], 
sondern werden u.a. auch für die Bildgenerierung, Ausreißererkennung, 
Steuerung von Robotern bzw. von Charakteren in Videospielen, Analyse 
von Spektrogrammen und der Komprimierung eingesetzt. Der Sieg von 
neuronalen Netzen über die weltbesten Go-, Schach- und Shögi-Spieler 
2016 und 2017 [143, 144] haben das immense Potential der neuronalen 
Netze einer breiten Masse veranschaulicht. 

Für Bildverarbeitungsaufgaben auf den gängigen großen Vergleichs- 
datensätzen haben sich in der Vergangenheit immer komplexere und 
damit ressourcenhungrigere CNNs als vorteilhaft erwiesen (s. Abb. 1.1). 
Um eine Überanpassung durch die steigende Zahl an Parametern zu 
vermeiden, wurden gleichzeitig immer komplexere Regularisierungsme- 
thoden verwendet. Die Verbesserung bzw. die Verminderung der Kosten 
der Trainingshardware, aber auch Cloud-Dienste für das Training ha- 
ben ebenfalls zu diesem Trend beigetragen. Dies bremst gleichzeitig die 
Forschung an kleineren neuronalen Netzen, da diese auf den Vergleichs- 
datensätzen nicht mit den großen Netzen mithalten können und daher 
stets eine gute Begründung wie die Echtzeitfähigkeit oder die Implemen- 
tierung auf spezieller Hardware für deren Verwendung erforderlich ist. 
Eine Forschungslücke, die sich hier auftut, ist das Anwenden moderner 
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Regularisierungsmethoden auf kleine CNNs. Wie Abb. 1.1 zeigt, kann 
eine gute Augmentierung die Genauigkeit von PyramidNet deutlich ver- 
bessern [30]. Zwar ist der erreichte Testfehler geringfügig höher als der 
des AmoebaNet-B, dafür ist jedoch die Anzahl der benötigten Parameter 
um mehr als eine Größenordnung kleiner. 
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Abbildung 1.1 Erzielter Testfehler auf dem CIFAR-10-Datensatz abhängig von der Anzahl 
der Parameter fiir verschiedene CNN-Topologien [30, 48, 63, 92, 104, 127, 131, 139, 145, 155, 
172]. 


CNNs gerieren sich außerdem als Black-Box-Modelle, deren Merk- 
malsextraktoren aus den intrinsischen Eigenschaften eines Lerndatensat- 
zes bzw. beim Verstärkungslernen aus der spezifischen Aufgabenstellung 
abgeleitet werden. Dies führt dazu, dass sich trainierte Netze leicht stören 
lassen [53, 73, 119] bzw. nicht invariant bzgl. bestimmter Bildeigenschaf- 
ten (z. B. Kontrast oder Objektgröße) oder abhängig von der Bildqualität 
sind [37, 38, 67]. Insbesondere in industriellen oder sicherheitskritischen 


1.1 Problemstellung 


Anwendungen ist dies problematisch. Eine geeignete Regularisierung in 
Form von Augmentierung oder Bildvorverarbeitung hat das Potential, 
diesbezüglich zu einer höheren Resilienz zu führen und CNNs damit 
ein Stiick weit interpretierbarer zu machen. 


1.1 Problemstellung 


Mit dem Ziel, künstliche neuronale Netze für industrielle Anwendungen 
einzusetzen, ergeben sich vielfältige offene Problemstellungen, da wie 
eingangs beschrieben der Hauptfokus in der Forschung bzgl. neuronaler 
Netze in der Verarbeitung anderer Datensätze liegt und die Leistung 
neuronale Netze durch immer komplexere und ressourcenhungrige- 
re Strukturen erhöht wird. Industrielle Bildverarbeitungsaufgaben wie 
bspw. Texturanalyse, Defektdetektion oder Zeichenerkennung besitzen 
im Gegensatz zu den häufig verwendeten Vergleichsdatensätzen wie z. B. 
ImageNet oft eine geringere Komplexität, da die Domäne, die der Daten- 
satz abbildet, i. d. R. deutlich kleiner ist: Die Variabilität von Defekten auf 
metallischen Oberflächen ist bspw. erheblich geringer als die Variationen, 
die bei der Klassifikation alltäglicher Objekte auftreten. Daher steht in 
dieser Arbeit die Effizienz der neuronalen Netze im Vordergrund und so- 
mit die Frage, wie klein und ressourcenschonend die Inferenz eines CNN 
sein kann, ohne die Genauigkeit stark negativ zu beeinflussen. Zwar ste- 
hen industrielle Anwendungen im Vordergrund dieser Arbeit, jedoch 
werden die Methoden allgemein entworfen, um auf andere Aufgaben 
adaptierbar zu sein. Daher werden in dieser Arbeit auch Vergleichsda- 
tensätze aus anderen Domänen untersucht. 

Eine weitere Fragestellung, die im zweiten Teil dieser Arbeit unter- 
sucht wird, ist die Erkennung und Segmentierung von Objekten un- 
terschiedlicher Bauform bzw. von unterschiedlichem Zustand für das 
Remanufacturing, dem Wiederaufbereiten von Gebrauchtprodukten. 

Insgesamt haben sich die folgenden Herausforderungen für den Ein- 
satz neuronaler Netze in der industriellen Bildverarbeitung herauskris- 
tallisiert: 


= Kleine Datensätze: Obwohl industrielle Aufgaben einfacher sind, 
mangelt es oftmals an einer ausreichenden Menge an annotier- 
ten Bilddaten, da das Annotieren sehr zeit- und kostenintensiv 
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ist. Daher müssen die vorhandenen Daten bestmöglich genutzt 
werden. 


Ressourceneffizienz: Das Ziel soll sein, dass die Inferenz des neu- 
ronalen Netzes auf einem FGPA implementierbar ist. Hierbei soll 
der Block-RAM für die Speicherung der Gewichte und Aktivie- 
rungen verwendet werden. Dieser hat bei modernen FPGAs der 
Xilinx7-Serie eine Größe von bis zu 7 MB. 


Erkennung von Bauteilen unabhängig von Bauform und Zustand: 
Dies ermöglicht die Positionierung einer Kamera bzw. das Abfah- 
ren einer Trajektorie zum Abscannen der Bauteiloberfläche und 
anschließender Inspektion. 


Black-Box-Modell: Ein neuronales Netz stellt ein Black-Box-Modell 
dar, da die gelernten Merkmale aus statistischen Eigenschaften 
des Lerndatensatzes abgeleitet bzw. aggregiert werden, was die 
Erklärbarkeit der Ausgabe eines neuronalen Netzes durch den 
Anwender besonders erschwert. Daher ist zumindest die Inter- 
pretation der Auswirkungen der vorgestellten Methoden mittels 
geeigneter Theorien erforderlich. 


1.2 Eigener Beitrag 


Bestehende Ansätze untersuchen entweder die Recheneffizienz oder die 
Aufbereitung der Datensätze und betrachten daher nicht die Gesamt- 
problemstellung. Insbesondere den Modifikationen für die Implemen- 
tierung der Inferenz auf mobilen Geräten und FPGAs kommt weniger 
Aufmerksamkeit zu, da die Chip-Hersteller einerseits FPGA-Platinen um 
CNN-Recheneinheiten erweitern oder die Entwickler auf Cloud-basierte 
Lösungen setzen. Beides führt zu einer Verteuerung und Verlangsamung 
der Inferenz, was den Einsatz neuronaler Netze für industrielle Anwen- 
dungen gefährdet oder eine Echtzeitdetektion erschwert. Daher wird in 
dieser Arbeit ein ganzheitlicher Ansatz gewählt, der folgende Punkte 
enthält: 


= Diskussion des Trainings: In der Literatur finden sich unterschied- 
liche Ansätze für das Training eines CNN. Allen gemeinsam ist 


1.2 Eigener Beitrag 


die Unterteilung eines Durchlaufs (engl. epoch) in Chargen (engl. 
batches). Üblicherweise ergibt sich aus der Chargengröße und der 
Größe des Lerndatensatzes die Anzahl der Iterationen pro Durch- 
lauf, was die Chargengröße in der Literatur zu einem intensiv 
untersuchten Hyperparameter gemacht hat. In dieser Arbeit wer- 
den alternative Definitionen eines Durchlaufs untersucht, da die 
oben beschriebene Definition bei Online-Augmentierung diskus- 
sionswürdig ist. Dies führt zu einer konsistenten Verbesserung 
beim Training. 


Interpretation von Vorverarbeitung und Augmentierung als Kon- 
struktion invarianter Merkmale: Hierfür wird ein Verfahren für 
die Bildverbesserung eines Datensatzes entwickelt, mit dem die 
Daten bzgl. bestimmter Invarianzen in einem Vorverarbeitungs- 
schritt normalisiert werden. Zudem werden mit einem leicht modi- 
fizierten AutoAugment-Verfahren Invarianzen integrativ durch das 
CNN erlernt. Beide Verfahren können als Weg für die Konstrukti- 
on invarianter Merkmale nach Schuz-MirBAcH [137] interpretiert 
werden. Ferner werden die Wechselwirkungen von integrativer 
(Augmentierung) und normalisierender (Bildverbesserung) Kon- 
struktion der invarianten Merkmale sowie deren Implikation auf 
den Ressourcenbedarf und die Resilienz gegenüber Angriffen auf 
das CNN analysiert. Gegenüber der ausschließlichen Verwendung 
des faster-AutoAugment-Verfahrens nach [61] kann durch die Mo- 
difikation und Kombination mit Vorverarbeitung eine deutliche 
Steigerung der Genauigkeit und Reduktion des Ressourcenbedarfs 
erzielt werden. 


Quantisierungs-Framework: Für eine sinnvolle FPGA-Implementie- 
rung ist eine 8-Bit-Festkomma-Quantisierung notwendig. Hierfür 
wird ein Quantisierungs-Framework vorgestellt. Dabei werden 
Quantisierungseffekte schon während des Trainings berücksich- 
tigt und die Verwendung einer Normalisierungsschicht wird ver- 
mieden. Durch Erweiterungen und Vorverarbeitung sowie Aug- 
mentierung können die erzielten Genauigkeiten weiter erhöht 
werden. 
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« Heuristik fiir die Topologie: Um die Rahmenbedingungen fiir den 
Speicherbedarf eines CNN einzuhalten, wird in dieser Arbeit eine 
neuartige Heuristik beschrieben, die die Topologie eines geeigne- 
ten CNN bestimmt. Je nach Wahl der Fitness-Funktion bzw. deren 
Straftermen können sehr ressourcensparende CNNs gefunden 
werden. Hierbei muss zwischen Ressourcenbedarf und erzielter 
Genauigkeit abgewogen werden. 


Bildbasierter Regler mittels U-Net-Ausgabe: Im zweiten Teil dieser 
Arbeit wird ein bildbasierter Regler entworfen, der auf einer U- 
Net-Ausgabe basiert. Hierzu wird ein relativ kleiner Datensatz 
erstellt, mit dem ein leicht modifiziertes U-Net trainiert wird. Das 
U-Net liefert genaue Schätzungen über die Orientierung, Größe 
und Lage des Objektes, die sich als Merkmale für den bildbasierten 
Regler eignen. Dieser ist durch verschiedene Erweiterungen robust 
gegenüber Rauschen und Fremdobjekten. 


1.3 Struktur der Arbeit 


In Kapitel 2 werden Grundlagen künstlicher neuronaler Netze und der 
Robotik beschrieben. Hierzu wird einerseits ausgehend von der digita- 
len Bildverarbeitung in Abschnitt 2.1 der Aufbau von konvolutionären 
neuronalen Netzen in Abschnitt 2.2 beschrieben. Anschließend werden 
in Abschnitt 2.3 die Grundlagen der Robotik geschildert, die für das Ver- 
ständnis dieser Arbeit notwendig sind. Danach teilt sich diese Arbeit 
thematisch in zwei Teile. 

In den Kapiteln 3 und 4 werden die Verfahren und deren Ergebnisse 
für den Entwurf effizienter neuronaler Netze beschrieben. Im methodi- 
schen Part wird in Abschnitt 3.1 das Training diskutiert. Anschließend 
werden die Verfahren für die Konstruktion invarianter Merkmale vorge- 
stellt. Diese sind ein Bildverbesserungsverfahren für die Vorverarbeitung 
in Abschnitt 3.2 und ein modifiziertes Augmentierungsverfahren in Ab- 
schnitt 3.3. Anschließend wird in Abschnitt 3.4 die Quantisierung thema- 
tisiert, bevor in Abschnitt 3.5 eine Heuristik für den Entwurf neuronaler 
Netze vorgestellt wird. In Abschnitt 3.6 wird aufgezeigt, wie die ein- 
zelnen Verfahren für eine holistische Verarbeitungskaskade kombiniert 
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werden können. Die Evaluation dieser Verfahren ist Thema von Kapi- 
tel 4. Nach der Beschreibung der Simulationsumgebung in Abschnitt 4.1 
werden das Training in Abschnitt 4.2 und die Verfahren für invariante 
Merkmale in Abschnitt 4.3 ausgewertet. Im Anschluss werden das Quan- 
tisierungsverfahren in Abschnitt 4.4 und die Heuristik eingebettet im 
Gesamtsystem in Abschnitt 4.5 untersucht. 

Der zweite Teil dieser Arbeit beschäftigt sich mit der robotergestützen 
Inspektion. Hierfür wird in Abschnitt5.1 ein neuronales Netz für die 
Segmentierung von Ankern von Elektromotoren entworfen, auf dessen 
Grundlage der bildbasierte Regler aus Abschnitt 5.2 fußt. In Abschnitt 6.1 
wird erst das U-Net und dann in Abschnitt 6.2 der Regler evaluiert. Hier- 
zu wird in Abschnitt 6.3 ein Fazit sowie ein kurzer Ausblick für zukünf- 
tige Arbeiten gegeben. 

In Kapitel 7 wird für die gesamte Arbeit eine kurze Zusammenfassung 
sowie ein Ausblick gegeben. 


2 Grundlagen 


In diesem Kapitel werden die Grundlagen, die für das Verständnis der Ka- 
pitel 3 - 6 notwendig sind, dargestellt. Dieses Kapitel dient einerseits der 
Einordnung von CNNs in das Feld der klassischen Signal- und Bildver- 
arbeitung und gibt andererseits einen kurzen Abriss des Robotersystems 
mit frei bewegbarer Kamera, das in den Kapiteln 5 und 6 verwendet 
wird. 


2.1 Digitale Bildverarbeitung 


Die rasante Entwicklung von Bildsensorik und Computertechnologie 
führte dazu, dass mittlerweile in fast allen wissenschaftlichen und techno- 
logischen Disziplinen Bildverarbeitung eingesetzt wird. Moderne CMOS- 
und CCD-Sensoren wandeln hierfür sichtbares Licht durch den photo- 
elektrischen Effekt in Ladungen um. Die angesammelte Ladung inner- 
halb eines Zeitfensters induziert eine Spannung, die proportional zur 
Lichtmenge, d.h. zur Intensität ist. Durch das Quantisieren dieser Span- 
nung gelingt der Übergang zu einem diskreten Wert, der von Computern 
verarbeitet werden kann. Die Anordnung mehrerer Einzelsensoren zu ei- 
ner Matrix ergibt eine diskrete zweidimensionale Funktion I(u, v), die als 
digitales monochromatisches Bild interpretierbar ist. Durch die Verwen- 
dung einer Bayer-Maske sind Farbinformationen extrahierbar, wodurch 
sich ein digitales RGB-Bild ergibt. 
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2.1.1 Bilder als zweidimensionale Signale 


Die diskrete Darstellung ermöglicht die maschinelle Verarbeitung mit 
klassischer zweidimensionaler Signalverarbeitung. Eines der relevantes- 
ten Werkzeuge der digitalen Bildverarbeitung ist die diskrete Faltung 
eines Bilds I(u, v) mit einem diskreten, linearen und ortsinvarianten 
System k(u, v), dem sog. Filter. Die Faltung ist definiert als 


(L k)(u -» S (u — k, v — l) - k(k, Ù). (2.1) 
—oo l=—0o 

Durch die gezielte ere eines geeigneten Filters konnen bestimmte 
Bildeigenschaften verstärkt oder vermindert werden. So können durch 
ein Tiefpassfilter wie bspw. einem Gauß- oder Rechteckfilter hohe Orts- 
frequenzen gedämpft werden, was zu verschwommenen Details und 
Kanten führt, aber auch mittelwertfreies Bildrauschen vermindert. Hoch- 
passfilter dagegen verstärken Kanten und Rauschen gleichermaßen. Der 
Marr-Hildreth-Operator [112] kombiniert einen approximativen Differen- 
zierungsoperator zweiten Grades mit einem Tiefpassfilter, um Bildkanten 
zu exponieren und gleichzeitig Rauschen zu unterdrücken. 

Mit der Bildverschärfung wird der visuelle Schärfeeindruck eines 
Bildes dadurch verstärkt, dass tieffrequente Anteile vom Originalbild 
subtrahiert werden. Im Detail wird hier das mit agg gewichtete und mit 
einem Tiefpass gefilterte Bild vom Originalbild subtrahiert und anschlie- 
Send durch 1 — agg geteilt. 

Neben der Filterung stellt die Abtastratenkonvertierung eine relevante 
Operation der digitalen Signalverarbeitung dar. Hierbei wird die Anzahl 
der Bildelemente (engl. pixel) erhöht (Interpolation, engl. upsampling) 
bzw. verringert (Dezimierung, engl. downsampling). Um Störeinflüsse bei 
der Signalrekonstruktion (Interpolation) bzw. durch spektrale Uberfal- 
tung (engl. aliasing, Dezimierung) zu reduzieren, ist eine Faltung des 
Signals mit einem Tiefpassfilter, dem sog. Interpolationsfilter kj, bzw. 
Antialiasing-Filter ky 4, notwendig. Die Dezimierung (-)| ąņ eines Bildes I 
um den Faktor M € N ist definiert durch 


(Ku, v)) m = Ne S (uM — k, uM — l) -kaa (k,l). (2.2) 


k=—c0 l=—00 
Während eine Dezimierung zur Erhöhung der Informationsdichte ver- 
wendet wird, dient eine Interpolation meist der Anpassung des Signals 
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an ein System, das auf einer höheren Auflösung operiert. Die Interpolati- 
on (-)+,;, um den Faktor M € N besteht aus zwei Schritten. Zuerst wird 
das Signal bzw. Bild expandiert, indem zwischen jedem Abtastwert M—1 
Nullen eingefügt werden. Das resultierende Signal wird anschließend 
mit einem Interpolationsfilter mit Tiefpasscharakteristik gefaltet. 


2.1.2 Nichtlineare digitale Bildverarbeitung 


Abseits der Bildverarbeitung mittels linearer Systeme werden häufig 
nichtlineare Operationen zur Bildverbesserung verwendet, welche sich 
für die Vorverarbeitung und Augmentierung (s. Kapitel3) der Eingangs- 
bilder von konvolutionären neuronalen Netzen eignen. Im Folgenden 
werden die wichtigsten Operationen kurz erläutert, welche, sofern nicht 
anders gekennzeichnet, aus [11] entnommen sind. 

Bei der Histogrammspreizung wird der Kontrast eines Bildes dadurch 
erhöht, dass das geschätzte Histogramm der Grauwerte linear gestreckt 
wird, um den gesamten verfügbaren Wertebereich zu nutzen. Die His- 
togrammegalisierung dagegen bildet das geschätzte Histogramm auf 
eine Gleichverteilung ab. CLAHE (contrast limited adaptive histogram equa- 
lization) nach [65] egalisiert das Histogramm kleiner Bildausschnitte, die 
typischerweise eine Seitenlänge von 4 bis 64 Pixeln, der sog. Kachelgit- 
tergröße, haben. Dies erhöht den lokalen Kontrast. 

Homomorphe Filter vermindern den Effekt infolge inhomogener Be- 
leuchtung, die multiplikativ mit dem Nutzsignal des Eingangsbildes 
verknüpft ist, indem ein Hochpassfilter auf das logarithmische Eingangs- 
bild angewendet wird. Anschließend wird das resultierende Bildsignal 
potenziert. Bei Bilateralfiltern wird das Bild unter der Aufrechterhaltung 
der Kanteninformationen geglättet. Bei der Homogenisierung ersten 
Grades wird der lokale Mittelwert eines Bildes eliminiert, sodass der 
Mittelwert unabhängig von der Bildposition ist. Allgemein werden beim 
Grad m die ersten m lokalen stochastischen Momente des Bildes entfernt. 
Die lokale Mittelwertbildung wird durch eine Tiefpassfilterung realisiert. 

Medianfilter werden insbesondere zum Unterdrücken von Impulsrau- 
schen verwendet, da das Medianfilter einem Bildpunkt den Medianwert 
seiner Umgebung zuordnet. 

Bei affinen Transformationen werden die Pixelkoordinaten eines Bildes 
durch eine Matrix und einen Translationsvektor auf eine neue Position 
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abgebildet. Durch eine anschließende Interpolation sind Drehungen, 
Scherungen, Translationen und Vergrößerungen bzw. Verkleinerungen 
von Bildern möglich. 

Durch die Darstellung des Bildes im HSV-Farbraum können Helligkeit, 
Sättigung und der Farbwert einfach manipuliert werden. 


2.2 Grundlagen künstlicher neuronaler Netze 


Im Folgenden werden die Grundlagen von neuronalen Netzen beschrie- 
ben. Ausgehend vom Neuron als kleinstes Element wird der Aufbau und 
das Training von neuronalen Netzen erläutert. 


2.2.1 Einlagiges Perzeptron 


Das künstliche Neuron bildet den Ausgangspunkt für das einlagige 
Perzeptron und für neuronale Netze allgemein. Der Ursprung des künst- 
lichen Neurons liegt in der Beobachtung aus dem Bereich der Neurowis- 
senschaften, dass sich aus biologischen Neuronen durch ihr Alles-oder- 
nichts-Prinzip eine Aussagenlogik ableiten lässt [115]. Ein künstliches 
Neuron ist in Abb. 2.1 schematisch dargestellt. Aus den Eingängen x und 
den Gewichten h, des Neurons i wird zunächst das Innenprodukt gebil- 
det. Um einen Bias-Term b, zu integrieren, wird ein zusätzlicher Eingang 
mit dem Wert 1 verwendet. Die Ausgabe des Neurons ergibt sich aus der 
Aktivierung des Innenproduktes mit der nichtlinearen Aktivierungsfunk- 
tion Fagl) mit y; = Cakl (X, h;) + b;), die das Alles-oder-nichts-Prinzip 
des biologischen Neurons nachahmt. 

Durch das Parallelschalten mehrerer Neuronen mit den gleichen Ein- 
gangswerten, aber verschiedenen Gewichten ergibt sich das einlagige 
Perzeptron nach [129], welches als Schicht innerhalb eines neuronalen 
Netzes einsetzbar ist. Der Ausgabevektor y ist als Matrix-Vektor-Produkt 
zwischen den Gewichten H = [h,,..., hy]! und Bias-Termen b aller N 
Neuronen und dem Eingangsvektor x mit anschließender Aktivierung 
darstellbar durch 


y=o,u(Hx+b). (2.3) 


12 


2.2 Grundlagen kiinstlicher neuronaler Netze 


Yi 


Abbildung 2.1 Schematischer Aufbau des Neurons. Die Eingangsdaten x werden im 
Neuron mit den Gewichten multipliziert, wobei der Wert 1 mit dem Biasterm b; multipli- 
ziert wird. Die Produkte werden anschließend aufsummiert und aktiviert, sodass sich die 
Ausgabe y; ergibt. 


2.2.2 Aufbau von neuronalen Netzen 


Das mehrlagige Perzeptron ist der Ausgangspunkt für den Aufbau neu- 
ronaler Netze und wird durch die Verkettung mehrerer einlagiger Per- 
zeptronen gebildet, die im Folgenden als Schichten bezeichnet werden. 
Abb.2.2 zeigt ein Beispiel eines zweilagigen Perzeptrons mit drei Ein- 
gängen, fünf verborgenen Neuronen und zwei Ausgangsneuronen. Wäh- 
rend beim klassischen Perzeptron vollständig besetzte Gewichtsmatrizen 
H und ein binäres Schwellenwertverfahren als Aktivierung verwendet 
werden, werden in modernen neuronalen Netzen durch gezielte Re- 
striktionen der Gewichtsmatrizen und der Wahl anderer Aktivierungen 
bestimmte Operationen der digitalen Signalverarbeitung wie Faltungen 
oder Abtastratenkonvertierung nachgeahmt [92]. Im Folgenden werden 
die wichtigsten Schichten moderner CNNs kurz aufgeführt. 

Durch die Interpretation von x in Gleichung 2.3 als ein vektorisiertes 
Bild sind zweidimensionale Faltungen wie in Abschnitt2.1 durch H dar- 
stellbar. Hierbei ist H eine dünnbesetzte Faltungsmatrix. Sowohl das 
Eingangsbild X = [X,,...,Xp] € R7P»D) als auch die Aktivierungen 
Y = [Y,,...,¥,] € RUB- einer Schicht werden hierfür als dreidi- 
mensionale Tensoren dargestellt. Digitale Bilder I(u, v) sind i. A. in die 
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Abbildung 2.2 Schematischer Aufbau des zweischichtigen Perzeptrons. 


Darstellung als Eingangstensor überführbar, wobei D = 1 für monochro- 
matische und D = 3 für Farbbilder gilt. 

In zweidimensionalen Faltungsschichten (engl. convolutional layers) 
wird jede der D Aktivierungskarten von X mit insgesamt L verschie- 
denen Filterkernen k; = [k,1,...,k,p] € ROSP), 1 = 1,...,L der 
Größe 3 x 3, welche sich aus Gründen der Recheneffizienz und Perfor- 
mance durchgesetzt hat, und Tiefe D gefaltet und mit einem Bias-Ierm 
b, L= 1, ..., L addiert. Anschließend wird der resultierende Tensor ent- 
lang der Tiefe aufsummiert. Die Werte der Filterkerne werden während 
der Lernphase bestimmt. Die Rechenvorschrift für die Faltung einer ein- 
zelnen Aktivierungskarte der Ausgabe Y lautet 


D 
Y, = Tak (> Xa ** k; a + n) . (2.4) 
d=1 


Durch Anhängen von Nullen zum Aufrechterhalten der örtlichen Di- 
mension (engl. zero-padding) wird ein Eingangstensor der Dimension 
H x B x D auf einen Ausgangstensor der Größe H x B x L abgebildet. 
Der Vorgang ist in Abb. 2.3 für D = 3 und L = 4 illustriert und benö- 
tigt insgesamt 10 - H BLD MAC-Operationen (engl. multiply-accumulate 
operations) für die Ausführung. 
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Eingabe X Filterkerne Ausgabe Y 
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Abbildung 2.3 Illustration der Faltung eines CNN. Auf die Darstellung der Addition der 
Biasterme wurde in der Abbildung der Übersichtlichkeit wegen verzichtet. 


Für die Abtastratenkonvertierung werden Hochtastschichten (engl. 
upsampling layers) und Pooling-Schichten verwendet. Diese vergrößern 
bzw. verkleinern die ersten beiden Dimensionen des Eingangstensors. 
Die Max-Pooling-Schicht mit dem Dezimierungsfaktor 2 und der Schritt- 
weite 2 wird aufgrund ihres Alles-oder-nichts-Verhaltens üblicherweise 
zum Dezimieren eingesetzt [136]. Da die Ausgabe dieser Schicht jeweils 
das Maximum von (2 x 2)-Elementen ist und kein Antialiasing-Filter 
verwendet wird, ist die Operation dieser Schicht nicht invertierbar und 
nichtlinear, wodurch die aggregierten Merkmale im Allgemeinen trans- 
lationsvariant sind [4]. Max-Pooling um den Faktor M wird im Folgenden 
mit (e) y mp bezeichnet. Die Operation der Hochtastschichten folgt der 
Beschreibung gemäß Abschnitt 2.1. In der Lernphase wird für jede Karte 
X, der Eingabe ein eigenes Interpolationsfilter kmt „ ermittelt. 

Als Aktivierung der vorderen und intermediären Faltungsschichten 
wird im Folgenden die leaky rectifier linear unit (kurz: leaky ReLU) o,«(x) = 
max {a-2z,b- x} mit a = 0 und b = 1 verwendet. Diese Funktion wird 
auch als ReLU bezeichnet. Fiir Multi-Klassen-Klassifikationsaufgaben 
wird als Aktivierung der letzten Schicht eine softmax-Funktion und für 
Segmentierungsaufgaben sowie Zwei-Klassen-Klassifikationsaufgaben 
eine sigmoid-Funktion verwendet. 

Des Weiteren wird eine Chargennormalisierungschicht (engl. batch 
normalization layer, kurz: BN) nach [77] verwendet, um den Effekt in- 
stabiler Gradienten in der Lernphase abzumildern. Hierbei wird jede 
Charge B (engl. (mini-) batch) und jede Aktivierungskarte ! durch den 
geschätzten Mittelwert fgn gı und die geschätzte Standardabweichung 
Opn.g,ı Standardisiert und anschließend mit Yen, und ôgy, skaliert und 
verschoben. 
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Die Rechenvorschrift fiir eine Aktivierungskarte einer Faltungsschicht 
mit ReLU-Aktivierung, BN und einer Max-Pooling-Schicht lautet 


D F 
ae Xa ** Ki a + bi — Ben, 

Yi = akt | YBN, z ae + Opn, . 

BN,B,l iene 


(2.5) 


Im Folgenden wird die Menge aller trainierbaren Gewichte eines neu- 
ronalen Netzes als H bezeichnet. Die Abbildung des neuronalen Netzes 
wird mit f : X — P bezeichnet und bildet den Eingabedatensatz X 
auf die Ausgabe P ab. Die Ausgabe P stellt somit eine Schätzung der 
Grundwahrheit M des Datensatzes dar. 


2.2.3 Training von neuronalen Netzen 


Während des Trainings werden die trainierbaren Gewichte H des neu- 
ronalen Netzes mit Hilfe des Lerndatensatzes {A ,Mı} erlernt. Für 
Bilddatensätze ist X eine Menge an Bildern und M die dazugehörige 
Grundwahrheit, welche im Falle der Klassifikation die dominante Klasse 
des Bildes indiziert. Die Gewichte werden schrittweise mit einem ge- 
eigneten Gradientenabstiegsverfahren berechnet, um die Zielfunktion 
L(f(A,; H), Mı) zu minimieren. Falls nicht anders angegeben, wird im 
Folgenden der NADAM-Optimierer als Gradientenabstiegsverfahren 
benutzt, der den ADAM-Optimierer [85] um ein Nesterov-Moment er- 
weitert. Für Klassifikationsaufgaben wird im Folgenden die kategorische 
bzw. binäre Kreuzentropie als Zielfunktion verwendet. 

Das Training besteht aus Durchläufen (engl. epochs). Bei einem Durch- 
lauf wird jedes Bild des Lerndatensatzes X, im Mittel einmal in das 
CNN eingegeben. Dabei wird eine Menge von Bildern zu einer Charge B 
zusammengefasst. Für jede Charge wird ein Gradientenschritt berechnet, 
um anschließend damit die Gewichte H zu aktualisieren. Eine Aktuali- 
sierung mittels einer Charge wird im Folgenden als Iteration bezeichnet. 
Mit der Chargengröße Ng = |B| ergeben sich | Arl/n,| + 1 Iterationen 
pro Durchlauf. 

Eine größere Chargengröße führt somit zu einer kleineren Anzahl 
an Iterationen, was in einem rechenineffizienten Training und in einer 
schlechteren Fähigkeit zum Generalisieren auf ungesehene Daten der 
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neuronalen Netze resultiert [50, 68, 84, 90, 105, 113, 117]. Als Maß für 
die Generalisierbarkeit wird die Generalisierungslücke T (engl. genera- 
lization gap) verwendet, die sich aus der Differenz zwischen den erziel- 
ten Genauigkeiten von Lern- und Testdatensatz ergibt. Um I möglichst 
klein zu halten, ist es erforderlich, das CNN zu regularisieren oder dem 
neuronalen Netz in der Trainingsphase Invarianzen bzgl. bestimmter 
Variationen beizubringen, da CNNs sehr sensibel gegenüber kleinsten 
Variationen in den Bilddaten wie bspw. Translation [4], Skalierung [121] 
oder Kontrast [67] sein können. Geschieht dies nicht, besteht die Gefahr 
der Überanpassung, d.h. das CNN lernt die Manifestationen bestimmter 
Merkmale im Lerndatensatz auswendig und kann diese nicht auf neue 
Daten übertragen. 

Um dies zu vermeiden, müssen entweder Invarianzen explizit durch 
Augmentieren und Vorverarbeitung beigebracht werden oder es müs- 
sen Regularisierungsverfahren nach [51, 92, 149] wie L,- bzw. L,-Re- 
gularisierung der Gewichte, vorzeitiges Anhalten (engl. early stopping), 
Kombination mehrerer CNNs, Dropout oder Einfügen von Rauschen 
verwendet werden. In dieser Arbeit wird neben Vorverarbeitung (s. Ab- 
schnitt 3.2) und Augmentierung (s. Abschnitt 3.3) zusätzlich eine L,- bzw. 
L,-Regularisierung verwendet. In Abschnitt 3.4 wird darüber hinaus 
Rauschen als Form der Regularisierung verwendet. 

Bei der L,-Regularisierung wird die Zielfunktion £ um einen Term 
L, erweitert, der proportional zur L-Norm aller Gewichte ist. Es gilt 
Ly = Ay Pey |hl?. Entsprechend wird für eine L,-Regularisierung 
die gewichtete Summe der Absolutbeträge der Gewichte als Strafterm 
hinzugefügt. 

Bei der Augmentierung wird der Datensatz künstlich durch eine sto- 
chastische Transformation der Bilder erweitert [141]. Zwar kann Aug- 
mentierung auch in der Merkmals- oder Annotierungsdomäne durchge- 
führt werden [13, 19, 76, 98, 156, 169, 176], jedoch beschränkt sich diese 
Arbeit auf die Augmentierung in der Bilddomäne. Hierbei bleibt die 
Annotierung unverändert und die Bilder werden durch eine Kaskade 
von Bildtransformationen verändert. Zu den Transformationen gehören 
u.a. Spiegelung [92], Verzerrungen [35], Farbtransformationen [30] oder 
andere affine Transformationen. 
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Im Gegensatz dazu werden Vorverarbeitungs- bzw. Bildverbesserungs- 
verfahren deterministisch eingesetzt, um bestimmte Variationen von 
Merkmalen in den Eingabebildern zu unterdrticken. 


2.3 Grundlagen der Robotik und der 
bildbasierten Regelung 


In diesem Abschnitt wird ein Robotersystem für eine bildbasierte Re- 
gelung vorgestellt. Dazu wird in Abschnitt 2.3.1 sowohl die Tiefenbild- 
kamera als auch der bewegbare Roboterarm, an dessen Endeffektor die 
Kamera montiert ist, modellartig beschrieben. Dies beinhaltet auch die 
Kalibrierung und Transformation zwischen den Koordinatensystemen 
beider Hardwarekomponenten. 

Im darauffolgenden Abschnitt 2.3.2 wird die klassische bildbasierte 
Regelung mit Punktmerkmalen und ihren Erweiterungen kurz themati- 
siert. 


2.3.1 Aufbau von Robotersystemen 


In Abb. 2.4 ist der schematische Aufbau eines geeigneten Roboterarms 
mit einer Kamera am Endeffektor dargestellt. Der Roboterarm verfügt 
über eine feste Anzahl N, an Gelenken q;, i = 0,..., N, die jeweils 
genau zwei starre Glieder miteinander verbinden. Im Folgenden werden 
nur ideale Drehgelenke betrachtet, wodurch q; mit einem Winkel kor- 
respondiert. Bei Kenntnis über die Maße der Glieder kann die Position 
xW = (a, yW, zW] und Orientierung of’ = [of Of”, yW] des Endeffek- 
tors, welche im Folgenden unter dem Begriff Lage zusammengefasst 
werden, abhängig von den aktuellen Gelenkwinkeln q = [q, ..., 9 N.-ıl 
berechnet werden [12]. Gemäß [111] wird die Berechnungsvorschrift 
für die Lage des Endeffektors (xW, W) aus den Gelenkwinkeln q als 
direkte Kinematik bezeichnet. Die Gesamttransfomation To, n,(@ ergibt 
sich aus der Verkettung der Einzeltransformationen Tia +1(q;) des i-ten 
Gelenks. To, n9) ist eine (4 x 4)-Matrix, die die lineare Koordinaten- 


transformation zwischen der Basis des Roboters und dem Endeffektor in 
homogenen Koordinaten beschreibt. Die Matrix enthält eine Verkettung 
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Abbildung 2.4 Schematischer Aufbau des Robotersystems mit N, = 4 Gelenken. 


der drei Rotationsmatrizen R(d") = R,(Uz)R,(z)R.(&r) und dem 
Translationsvektor xW. Die Transformationsmatrix hat die allgemeine 
Form 


- W) | yW 
a = | ae ae (2.6) 


Wird der Ursprung des Weltkoordinatensystems in die Basis des Roboters 
gelegt, beschreibt Tp. n,(@) ferner die Lage des Endeffektors. 


Da die Abbildung q; > Tiz +1(9;) auf Grundlage der Geometrie des 
Roboters berechnet wird [111], ist die Abbildung im Allgemeinen nicht- 
linear und injektiv. Daher ist die Lage des Endeffektors bei Kenntnis 
von q eindeutig, während die Berechnung geeigneter Gelenkwinkel bei 
einer gewünschten Lage, der sog. inversen Kinematik, eine nicht triviale 
Aufgabe ist, da u. a. Kollisionen zwischen Roboterkomponenten und Sin- 
gularitäten zu vermeiden sind. Diese Thematik wird in der Forschung 
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ausführlich diskutiert [3, 49, 110, 111]. Moderne Roboterarme werden 
üblicherweise vom Hersteller bzgl. To, N, (q) kalibriert und verfügen über 
eine interne Berechnung der inversen Kinematik. 

Durch eine dynamische Betrachtung der Kinematik sind Bewegun- 
gen zwischen einer Startlage (x, ff!;) und einer Endlage (xH, pW) 
ableitbar [87]. Diese ist entweder durch die Differenz der Lageparame- 
ter (Ax A@#W) oder durch eine Transformationsmatrix T, » nach dem 
Schema aus Gleichung 2.6 beschreibbar. Die Lage nach einer Bewegung 
ist tiber Tp, n (M712 berechenbar. Im Folgenden werden ausschließlich 
lineare Bewegungen des Roboterarms betrachtet. 

Für die Versuche in dieser Arbeit ist eine Tiefenkamera am Endef- 
fektor montiert. Insbesondere bei der bildbasierten Regelung werden 
Transformationen bezüglich der Kamerakoordinaten XX = (XS, Y5, Z5) 
angegeben (s. Abb. 2.4). Durch eine sog. eye-in-hand-Kalibrierung wird die 
Lagetransformation Tax zwischen Endeffektor und Kamera bestimmt. 
Gemäß [164] wird hierfür ein Schachbrettmuster aus mehreren Kamerala- 
gen aufgenommen. Die Transformationsmatrix Twx(q) = To, v, (QTEK 
beschreibt nicht nur die Lage der Kamera, sondern ist auch fiir die Um- 
rechnung von Welt- in Kamerakoordinaten nutzbar. 


optische Achse 


xx Bildebene 


Abbildung 2.5 Verwendetes Lochkameramodell. 
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2.3 Grundlagen der Robotik und der bildbasierten Regelung 


Zur Beschreibung der Kamera wird das Lochkameramodell aus Abb. 2.5 
verwendet. Die Lichtstrahlen des Objekts an der Position Rob; durchdrin- 
gen die Bildebene, die sich im Abstand Ze; der sog. Kammerkonstante, 
zum Ursprung der Kamera befindet, im Punkt XD bj: Mithilfe des Strah- 
lensatzes ergibt sich 


Tobi = Z K xe (2 7) 
B| —~>ve |vK|- . 
Yoj] Zen; | Yoj 


Mit der Transformation in homogene Koordinaten [@/c, t/c)" + [a,b,c]? 
wird der Strahlensatz zu 


K 

Toy X ob 

Yobj | = "ob . (2.8) 
Z B Z obj 


Durch die Hauptpunktkorrektur und Quantisierung ergibt sich der 
fundamentale Zusammenhang zwischen den Sensorkoordinaten des 
Bildes u = [u, v]" und der Position X§, eines Objektes im Raum zu 


uy Ar 0 FR] XK, 
F =| 0 Ay Fel | You 
Zš] o o 141% 
u] f 0 Up Xj 
= : = k fy "| Yon | =: CkX Éj (2.9) 
1l LO 0 1) 


Die Matrix Cy mit ZfA;' = f, und Z£A,' = f, wird als Kamerama- 
trix bezeichnet. Für eine feste Fokussierung der Kamera ist Cx konstant 
und durch eine Kalibrierung mit einem Schachbrettmuster aus verschie- 
denen Perspektiven bestimmbar [177]. Bei Tiefenbildkameras, die auf 
Streifenlichtprojektionen beruhen, wie bspw. Zivid-Kameras ist eine 
Selbstkalibrierung während der Aufnahme möglich [174]. 


2.3.2 Klassische bildbasierte Regelung 


Das Ziel der bildbasierten Regelung besteht darin, eine bewegliche Ka- 
mera in eine Position zu bringen, in der der Fehler e„(t) = m(t) — m* 
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zwischen einem Bildmerkmalsvektor m(t), der aus dem Bild der Kamera 
zum Zeitpunkt t ableitbar ist, und einem Zielmerkmalsvektor m* be- 
tragsmäßig minimal ist. Die bewegliche Kamera wird dabei über einen 
Roboter in Echtzeit durch eine Rückkopplungsschleife gesteuert [10, 17, 
75, 168]. Der in dieser Arbeit verwendete Roboteraufbau ist in Abb. 2.4 
schematisch dargestellt. 

Nach [75] können Bildmerkmale beliebige Strukturmerkmale sein, die 
aus dem Bild extrahiert werden können. Die reellwertigen Größen, die 
aus dem Bildmerkmalen ableitbar sind, werden gemäß [81] als Merkmals- 
parameter m bezeichnet und bilden den Merkmalsvektor m. Besonders 
geeignet sind Merkmale, die aus verschiedenen Lagen der Kamera sicht- 
bar sind wie bspw. Punktkoordinaten [42], Abstände und Orientierungen 
zwischen Punkten [43], Kantenlängen und Flächen [167] oder Parameter 
anderer geometrischer Figuren [42, 167]. 

Für die bildbasierte Regelung ist der Zusammenhang zwischen der 
translatorischen Bewegung v“ = [vk, vu}, v&] bzw. den Winkelgeschwin- 
digkeiten w“ = [wk, wh, wh]! der Kamera und der korrespondierenden 
Anderung der Bildeigenschaften m relevant. Dieser Zusammenhang ist 
uber die Bild-Jacobi-Matrix J nach [168] mit 

K 
m=J | (2.10) 
gegeben. Die Jacobi-Matrix ist bestimmbar durch die optische Abbildung 
aus Gleichung 2.9 und den Bewegungsgleichungen für einen Punkt x“ 
in Kamerakoordinaten [75] 


XK = ZKK — YKK 4 K 
VE = XK KO ZK K 4 of 
ŻE = YSK — XKuK 4 ok (2.11) 
bzw. 
XÉ = wK x XK 4 VK, (2.12) 


wobei mit x das Kreuzprodukt bezeichnet wird. Die Jacobi-Matrix wird 
üblicherweise für Koordinaten x? = [xB, y’, 1]T auf einer normalisierten 
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imaginären Bildebene im Abstand ZK = 1 zum optischen Zentrum ange- 
geben, um unabhängig von Kameraparametern zu sein. Die Umrechnung 
in Sensorkoordinaten [u, v, 1]T gelingt mithilfe von Gl. (2.8) und (2.9) bei 
Kenntnis von Cx. 

Der Zusammenhang zwischen einem Punktmerkmal xË und den Bewe- 
gungen der Kamera ergibt sich mithilfe der Differenzierung von Gl. (2.7) 
zu 

xKzK E ZKxK yKzK _ ZKyK 


Z und 8 = —— I, (2.13) 


-B 
1 2 
Zk 


ax 


Durch Einsetzen dieses Ergebnisses in die Bewegungsgleichungen (2.11) 
und den Zusammenhang X* = x? Z* bzw. YS = yPZ* ergibt sich 


; 1 
iB = ZE (uy — va - wk Zi + wh ZK ( (oP)? — 1) — wh yBZ%)) 
(2.14) 
und 
‘ 1 
iB = se (oh — Yp — OZER)? +1) + WK ZK ay + WER ZN). 
(2.15) 
Damit ergibt sich die Jacobi-Matrix fiir Punktmerkmale zu 
x? 
o| ee ei (Pl yf 
J= 1 ur B\2 B, B B (2.16) 
0 FK ZK 1— (y7) TIY 7 


Basierend darauf können komplexere Bildmerkmale entworfen werden 
[173]. 

Da die bildbasierte Regelung aus mehreren Schritten besteht und in 
jedem Schritt durch die Jacobi-Matrix eine Bewegung impliziert wird, 
ändern sich die Merkmale und somit auch die Jacobi-Matrix in jedem 
Schritt. Die Merkmale m(t) und die Jacobi-Matrix J(t) sind somit zeitab- 
hängig und müssen in jedem Schritt geschätzt werden. 

Unter Annahme eines exponentiell abnehmenden Fehlers em ergibt 
sich êm = —A,e,,. Gemäß [17] lautet mit Gl. (2.10) der Regelschritt 


vX(t) J et 
eA = AJ (t)em(t), (2.17) 
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wobei mit J (t) die Pseudoinverse der geschätzten Jacobi-Matrix bezeich- 
net wird. Mit X, ist die Geschwindigkeit des Reglers einstellbar. Die 
Darstellung von A, als Vektor ermöglicht eine unterschiedliche Sensitivi- 
tät der Merkmale. 

Potentielle Probleme bei der bildbasierten Regelung sind Singularitä- 
ten der geschätzten Bild-Jacobi-Matrix J(t) und lokale Minima, die sich 
aus m — m* € kern(J) ergeben [16]. Somit ist für einen Regler mit gutar- 
tigen Konvergenzeigenschaften eine hinreichend genaue Bestimmung 
und Schätzung der Bildmerkmale und der Jacobi-Matrix erforderlich, 
während Fehler bei der Kamera- und bei der eye-in-hand-Kalibrierung 
einen verschwindend geringen Einfluss haben [41]. Im Allgemeinen ist 
der Regler gemäß [71] asymptotisch stabil, falls J* (t)J(t) > 0, Vt. Dies ist 
insbesondere dann der Fall, wenn die Jacobi-Matrix hinreichend genau 
geschätzt wird und J* wie auch J den vollen Rang 6 besitzen bzw. die 
jeweiligen Merkmale voneinander entkoppelt werden können [17]. 

Modernere Verfahren der bildbasierten Regelung enthalten darüber 
hinaus den Umgang mit Nebenbedingungen [1, 27] und eine Kollisions- 
vermeidung [132, 166]. 
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Heutzutage stellen CNNs das Standardverfahren zur Klassifikation und 
Detektion für Bilddaten dar. Ihre Verwendung im industriellen Kontext 
stellt aber eine Besonderheit dar, da die entsprechenden Bilddaten deut- 
lich weniger komplex sind als die üblichen Vergleichsdatensätze wie 
ImageNet [32] und andererseits spezielle Anforderungen an die Netze 
gestellt werden, welche sich aus maximalen Laufzeiten und Beschrän- 
kungen der genutzten Hardware ergeben. Gleichzeitig wird eine Klas- 
sifikationsgenauigkeit gefordert, die deutlich über der der klassischen 
Verfahren liegt, um die Verwendung des Black-Box-Modells CNN zu 
rechtfertigen. 

In diesem Kapitel werden Methoden für die Generierung effizien- 
ter neuronaler Netze für Bildklassifikationsaufgaben beschrieben, die 
im Rahmen dieser Arbeit entstanden sind. Effizienz korrespondiert in 
diesem Sinne mit der Testgenauigkeit der CNNs bzgl. der Klassifikations- 
aufgabe und den benötigten Ressourcen für die Inferenz. Die Methoden 
dieses Kapitels sind kombinierbar und lassen sich in vier thematische 
Bereiche gliedern. Die vier Bereiche werden hier kurz vorgestellt. Am 
Ende dieses Kapitels wird in Abschnitt 3.6 die vollständige Verarbeitungs- 
kette für effiziente CNNs präsentiert, welche Verfahren aller Bereiche 
kombiniert. 

Der erste Bereich umfasst den Aufbau und die Definition eines Trai- 
ningsdurchlaufs und seine Implikationen für die Hyperparameter. In 
Abschnitt 3.1 wird dazu insbesondere der Einfluss der Chargengröße 
auf das Training mit Augmentierung untersucht, da durch Augmentie- 
rung der Datensatz potentiell unendlich groß ist und die herkömmliche 
Definition eines Trainingsdurchlaufs daher weniger sinnvoll erscheint. 

Im zweiten Bereich werden Methoden zur Konstruktion invarianter 
Merkmale beschrieben. Gemäß [137] existieren in der Praxis hierzu zwei 
Wege. Beim normalisierenden Weg wird eine deterministische Transfor- 
mation auf ein Bild ausgeführt, um den Raum der unterschiedlichen 
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Auspragungsformen eines Merkmals zu reduzieren. Beispielsweise hat 
das Merkmal Kontrast in Bildern eine kleinere Menge an méglichen Aus- 
prägungen, wenn auf die Bilder zuvor ein Histogrammspreizungsverfah- 
ren angewendet wird. Durch normalisierende Bildverbesserungs- bzw. 
Vorverarbeitungsverfahren wird das Gesamtsystem invariant gegentiber 
bestimmten Merkmalen. Ein Verfahren zum Finden einer geeigneten Vor- 
verarbeitungsstrategie wird in Abschnitt 3.2 vorgestellt. Im Gegensatz 
dazu werden beim integrativen Weg alle darstellbaren Erscheinungsfor- 
men eines Merkmals beim Entwurf des Klassifikators beriicksichtigt, um 
invariant gegeniiber dieses Merkmal zu werden. Angewandt auf CNNs 
entspricht dies der Augmentierung in der Bilddomäne. Hierbei werden 
die Eingabebilder hinsichtlich bestimmter Merkmale stochastisch variiert. 
Beispiele für diese Variationen sind die Rotation des Bildes um einen zu- 
fälligen Winkel oder eine zufällige Änderung der mittleren Helligkeit des 
Bildes. Das Finden einer geeigneten Augmentierungsstrategie ist Thema 
von Abschnitt 3.3. Prinzipiell können für die Bildverbesserungsverfahren 
und Augmentierung die gleichen Verfahren eingesetzt werden, jedoch 
sind die Parameter dieser Verfahren bei Augmentierung stochastisch, 
während für die Bildverbesserung ein Verfahren mit deterministischen 
Parametern auf jedes Bild, das in das CNN eingegeben wird, angewandt 
wird. 

Der dritte Bereich beschreibt die Quantisierung von Gewichten und Ak- 
tivierungen eines CNN und wird in Abschnitt 3.4 thematisiert. Üblicher- 
weise wird die Inferenz eines CNN mit einfacher (32-Bit-Gleitkomma- 
Arithmetik) oder halber Genauigkeit (16-Bit-Gleitkomma-Arithmetik) 
ausgeführt. Frühere Publikationen deuten darauf hin, dass ein CNN 
während des Trainings eine Vielzahl an Redundanzen aufbaut, die an- 
schließend wieder entfernt werden können [60, 64, 114]. Das Ziel bei der 
Quantisierung ist es, diese Redundanzen derart aufzulösen, dass eine 
bestimmte Darstellung der Gewichte möglich ist, die einen geringeren 
Speicherbedarf impliziert. Die Quantisierung hat i. A. einen regularisie- 
renden Effekt, da der Lösungsraum beim Training reduziert wird bzw. 
die Gewichte nach dem Training mit Quantisierungsrauschen überlagert 
werden. Eine zu starke Regularisierung kann aber auch zu schlechteren 
Konvergenzeigenschaften des CNN führen. 
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Die Suche nach einer geeigneten Topologie wird im vierten Bereich 
in Abschnitt 3.5 vor dem Hintergrund beschränkter Rechenressourcen 
behandelt. Die Suche nach der leistungsstärksten CNN-Iopologie hat sich 
in der Forschung zum Entwurf immer größerer und komplexerer Netze 
hin entwickelt [58, 74, 131]. Dies wurde auch deshalb begünstigt, weil 
immer mehr annotierte Daten vorhanden sind und diese durch Verfahren 
der Domänenrandomisierung [163] beliebig vergrößert werden können. 
Da industrielle Anwendungen meist weniger komplex sind, sind jedoch 
kleinere CNNs oft schon ausreichend. In diesem Bereich wird daher der 
Frage nachgegangen, wie ein solches kleineres CNN entworfen werden 
kann. 


3.1 Einfluss der Chargengröße bei der 
Augmentierung 


Wie in Abschnitt 2.2.3 bereits aufgeführt, führen große Chargengrößen 
Ng zu einem schlechter generalisierenden CNN. Als Ursache hierfür 
wird in [84] Überanpassung, Anziehung zu Sattelpunkten, Fehlen ex- 
plorativer Eigenschaften und die Konvergenz zu verschiedenen Optima 
genannt, während der Effekt nach [50] auf das niedrigere Rauschen bei 
der Schätzung des Gradienten zurückzuführen ist. 

Einerseits bleibt der Effekt unbeachtet, dass bei größeren Ng weniger 
Iterationen beim Training durchgeführt werden, was eine langsamere 
Konvergenz bedingt. Andererseits führen größere Chargen aufgrund der 
Konsistenz des Optimierers zu einer rauschärmeren und somit zu einer 
genaueren Schätzung des Gradienten. Diese Problematik ist in Abb. 3.1 
illustriert. 

Zwar reduziert eine Skalierung des Gradientenschritts gemäß [90] den 
destruktiven Effekt großer Chargengrößen, jedoch legen einige Publika- 
tionen nahe, dass im Vergleich zu einer kleineren Chargengröße trotz 
dessen ein Verlust an Testgenauigkeit auftritt [50, 68, 113, 117]. Dennoch 
werden, um den Stand der Technik für Referenzdatensätze wie CIFAR-10 
zu erreichen, anstelle einer Erhöhung der Iterationen eine Erhöhung der 
Durchläufe und eine Vergrößerung des CNN durchgeführt. Das Training 
wird hierbei durch eine größere Chargengröße beschleunigt [30, 54, 117, 
175]. 
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ha ae : h* ho oe > ha Coe Di 
| z | P | a 
hy hy 
(a) Zu kleines Ng (b) Optimales Ng (c) Zu großes Ng 


Abbildung 3.1 Problem der Chargengröße Ng: Zu kleine Chargengrößen führen zu 
verrauschten Iterationen (a), während zu große Chargengrößen nur langsam konvergieren 


(0). 


Um die Vorteile von sowohl kleinen als auch großen Chargengrößen 
zu erhalten, wird vorgeschlagen, die Anzahl an Iterationen pro Durch- 
lauf unabhängig von der Chargengröße, die möglichst groß anzusetzen 
ist, zu wählen [68, 84, 126]. In Abschnitt 4.2 wird untersucht, welche Im- 
plikationen dieser Vorschlag für die Chargengröße in Kombination mit 
einer Augmentierung im Bildbereich hat, da hierdurch eine unbegrenzte 
Anzahl an Bildern erzeugt werden kann, was die Festsetzung der Anzahl 
an Iterationen abhängig von der Anzahl der Bilder obsolet macht. 


3.2 Vorverarbeitung 


Der Inhalt des folgenden Abschnitts wurde erstmals in [188] veröffent- 
licht und beschreibt den normalisierenden Weg zum Entwurf invarianter 
Merkmale nach [137]. Nachdem der Stand der Technik in Abschnitt 3.2.1 
beschrieben wird, folgt in Abschnitt 3.2.2 der eigene Beitrag zur auto- 
matischen Suche nach einer optimalen Vorverarbeitung. Hierzu werden 
die Bildverbesserungsverfahren aus Abschnitt 2.1 explizit zur Vermei- 
dung bestimmter Variationen von Bildmerkmalen verwenden, indem 
die zugehörigen verarbeiteten Bilder gewichtet und aufsummiert wer- 
den. Die klassischen Bildverbesserungsverfahren haben gegenüber der 
direkten Vorverarbeitung mit CNNs den Vorteil, dass sie effizient auf 
der CPU berechnet werden können und dass CNNs diese Methoden im 
Allgemeinen nicht darstellen können. 
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3.2.1 Stand der Technik 


CNNs werden ihrerseits verwendet, um Bilder zu verbessern, bspw. für 
Unterwasserbilder [99], Infrarotbilder [23, 96] oder um die Wahrneh- 
mung des menschlichen Auges zu verbessern [158]. Diese Methoden 
haben allerdings den Nachteil, dass sie rechenintensiv und kaum inter- 
pretierbar sind. 

In [22] werden die resultierenden Bilder dreier verschiedener Bild- 
verbesserungsverfahren mit einem CNN fusioniert, um ein möglichst 
gut ausgeleuchtetes Bild zu erhalten. Jedoch stellt die Untersuchung des 
CNNs bzgl. besserer Generalisierung T bzw. Testgenauigkeit beim Trai- 
ning mit den verbesserten Bildern eine wenig beachtete Angelegenheit 
dar, da meist nur wenige Methoden betrachtet werden. 

Radarbilder mit synthetischer Apertur (SAR) haben meist eine schlech- 
te Qualität aufgrund schlechten Kontrastes, einer schlechten Beleuchtung, 
Atmosphären- und Sensorrauschen und einer geringen Auflösung des 
verwendeten Radargerats. In [148] werden Verfahren der Rauschentfer- 
nung und zur Verbesserung der Auflösung auf SAR-Bilder angewandt, 
um die Klassifikationsleistung einer Support-Vektor-Maschine zu verbes- 
sern. Ein ähnliches Verfahren wird in [15] für die Vorverarbeitung von 
Röntgenbildern von Händen verwendet. Die Genauigkeit eines CNN, 
das mit diesen Bildern trainiert wird, steigt. 

In [55] wird Bildverbesserung zur Steigerung der Erkennbarkeit von 
Augenkrankheiten verwendet. Durch die Subtraktion des mittleren Farb- 
werts, die Neuskalierung und das Zuschneiden des Bildes werden Schwan- 
kungen der Beleuchtung und der Kameraauflösung reduziert. Eine an- 
dere Arbeit zeigt, dass Vorverarbeitungsschritte wie Subtraktion des 
mittleren Farbwerts, varianzbasierte Standardisierung und Nullkom- 
ponentenanalyse die Klassifikationsgenauigkeit verschiedener kleiner 
CNNs erhöhen können [122]. 

Zusätzlich zur Topologie werden in [117] auch verschiedene Vorverar- 
beitungsschritte untersucht. Neben der Skalierung und dem zufälligen 
Zuschneiden führt auch die Verwendung einer Transformation mit einer 
(1 x 1)-Faltung zu einer Erhöhung der Genauigkeit des CNN. Außerdem 
zeigt sich, dass der RGB-Farbraum den anderen Farbräumen einschließ- 
lich verschiedener Grauwerträume überlegen ist. Methoden wie lokale 
Histogrammspreizung resultieren dagegen in einer Verschlechterung. In 
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den Versuchen aus [125] erweist sich ebenfalls der RGB-Farbraum den 
anderen Farbräumen als überlegen. 

In [21] wird Vorverarbeitung explizit als Normalisierung verwendet. 
Hierbei werden handgeschriebene Ziffern bzgl. verschiedenster Schreib- 
gewohnheiten wie Winkel, Position, Größe und Dicke normalisiert, um 
die Variationen der individuellen Zeichen zu reduzieren. Es wird ge- 
zeigt, dass dadurch die Klassifikationsgenauigkeit ungesehener Ziffern 
deutlich erhöht wird. 

In [123] werden verschiedene Bildverbesserungsverfahren zum Erken- 
nen von Gesichtsausdrücken mittels CNNs verwendet. Die untersuchten 
Methoden werden separat ausgeführt und die jeweiligen Ergebnisse 
werden miteinander verglichen. 

Diese Beispiele zeigen einerseits, dass durch Vorverarbeitung eine Ver- 
besserung der Generalisierung I’ möglich ist, aber weisen andererseits 
darauf hin, dass die Auswahl der Methoden Expertenwissen erfordert, 
da ansonsten Verschlechterungen eintreten. Bis auf wenige rudimentäre 
Ansätze ist zum Zeitpunkt des Schreibens dieser Arbeit kein Verfahren 
bekannt, das die Vorverarbeitungsmethoden zu einem bestimmten Da- 
tensatz automatisch ermittelt und kombiniert. Eine solche Kombination 
birgt jedoch großes Potential in sich. 


3.2.2 Aufgabenspezifische Vorverarbeitung 


Im Folgenden wird ein Verfahren zur automatischen Suche nach einer 
Vorverarbeitungs- bzw. Bildverbesserungsstrategie (aSV) für die Eingabe- 
bilder von neuronalen Netzen vorgestellt. Die Methode nimmt an, dass 
die Lern- und Testdaten aus der gleichen Domäne stammen und sich 
hinreichend gut ähneln. Die Ny = 12 verwendeten Verbesserungsver- 
fahren sind Histogrammspreizung (HS), Histogrammegalisierung (HE), 
CLAHE (CL), Homogenisierung erster (H1) und zweiter (H2) Ordnung, 
Rechteckfilterung (RF), bilaterale Filterung (BF), Filterung mit dem Marr- 
Hildreth-Operator (MH), Homomorphe Filterung (HF), Bildverschär- 
fung (BS), Gaußfilterung (GF) sowie Medianfilterung (MF) und werden 
in Abschnitt 2.1 beschrieben. Die resultierenden Bilder sind für ein Bei- 
spiel in Abb. 3.2 dargestellt. Jede Methode kann durch eine Funktion 
Fy ;(I; ay,;) dargestellt werden, wobei a, für die Parameter der jeweili- 
gen Bildverbesserungsmethode steht. Die Funktion Fy o ist als Identität 
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definiert, um zusätzlich das Originalbild zu verwenden. Das aus der Vor- 
verarbeitung resultierende Gesamtbild Iy ergibt sich aus der gewichteten 
Summe der verarbeiteten Bilder und des Originalbildes. Es gilt 


N, N, 
Iy =) Oy; Fv.(kay,.) mit X` øy; = 1. (8.1) 
i=0 i=0 


i= 


(e) BS. (f) H1. (g) H2. (h) RF. 
(i) MF. (j) GF. (k) MH. (I) BF. 


(m) Originalbild. 


Abbildung 3.2 Verwendete Bildverbesserungsverfahren für die aufgabenspezifische Vor- 
verarbeitung nach Abschnitt 3.2.2 am Beispiel eines Bildes des CIFAR-10-Datensatzes. 


Da die Methoden i. A. hochgradig nichtlinear bzgl. ay ; sind, eignen sie 
sich nicht, um während des Trainings eines CNN bestimmt zu werden. 
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Daher werden die Operationen mithilfe eines Mischfaktors yy ; zwischen 
dem Originalbild I und dem mit einem geeigneten Satz an Parametern 
ay; verarbeiteten Bild linearisiert. Somit ergibt sich 

Fy (I; ay ;) x(1— wil T wily ays.) = Gy (I, Wi): (3.2) 


Der Wertebereich des resultierenden Bildes wird anschließend an den 
des Originalbildes angepasst. Das Verfahren ist in Abb. 3.3 illustriert. 


Abbildung 3.3 Schematischer Ablauf des Verfahrens der aufgabenspezifischen Vorverar- 
beitung. 


Somit ist für das Verfahren lediglich die Bestimmung der Gewichte 
Oy ; und der Linearisierungsfaktoren yy ; erforderlich. Hierzu wird der 
Merkmalsextraktor eines vortrainierten CNN verwendet. Die Gewichte 
des Merkmalsextraktors sind dabei nicht trainierbar. Lediglich die letzte 
vollständig verbundene Schicht und die Schicht zur Bestimmung von 6y ; 
und yy; sind trainierbar. Somit wird die Parameterkombination gesucht, 
für die der Informationsgehalt bzgl. der Klassifikationsaufgabe maximal 
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wird bzw. die Irrelevanz minimal wird. Die Bedingung ees Oy, =1 
wird tiber eine softmax-Funktion sichergestellt. 

Mithilfe der gefundenen Parameter können anschließend die korre- 
spondierenden Datensätze verarbeitet und als Eingabe in das zu trainie- 


rende finale Netz verwendet werden. 


i 


Vorverarbeitungsverfahren mit Straight-Through-Schätzer 

Im Folgenden wird eine Verbesserung des aSV-Verfahrens mittels Straight- 
Through-Schätzer (aSVST) beschrieben, die nicht in [188] veröffentlicht 
wurde. Anstatt der Verwendung einer Linearisierung zwischen vorver- 
arbeitetem Bild und Originalbild mittels yy ; wird ein Straight-Through- 
Schätzer gemäß [8] wie in [61] verwendet (vgl. Abschnitt 3.3.1). Dieser 
erlaubt die approximative Berechnung des Gradienten bzgl. jeweils eines 
Parameters a,. Für die Bildverbesserungsverfahren HS, HE, RF, MF und 
MH wird kein Parameter verwendet, da diese Operationen parameterfrei 
sind bzw. der Filterkern mit der Größe 3 x 3 konstant ist. Bei CL wird die 
Kachelgittergröße (engl. tile grid size) mit |16 — 8 - ay ; | und bei BF wer- 
den beide Gaußkerne mit demselben Parameter parametrisiert. Bei allen 
anderen Verfahren wird der Gradient bzgl. der Standardabweichung des 
Gaußkerns approximativ gebildet. Die Größe der Filterkerne ist fest und 
beträgt gemäß den Ergebnissen aus Abschnitt 4.3.1 3 x 3 bzw. 21 x 21. 
Die Ermittlung der Parameter erfolgt genauso wie im ursprünglichen 
Verfahren (s. 0.). 


Approximation des Vorverarbeitungsverfahrens 
Ebenfalls nicht in [188] veröffentlicht wurde die im Folgenden beschrie- 
bene Approximation des aSV- bzw. aSVST-Verfahrens. Für die Inferenz 
ist es meist nicht praktikabel, alle Ny Vorverarbeitungsverfahren für je- 
des Eingabebild auszuführen, da dies den Ressourcenbedarf oder die 
Rechendauer erhöht. Die Ergebnisse des aSV- bzw. aSVST-Verfahrens 
(s. 4.3.1 bzw. [188]) zeigen allerdings, dass bereits wenige Vorverarbei- 
tungsmethoden plus dem Originalbild den überwiegenden Anteil an 
der Kombination stellen. 

Für die Approximation werden zunächst alle Anteile der Bildverbesse- 
rungsverfahren, für deren Mischfaktor yy ; < 0,05 gilt, zu 0y ; = 0 gesetzt. 
Anschließend werden die drei Verfahren mit dem höchsten Anteil Oy ; 
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ausgewahlt und der Anteil aller anderen Verfahren wird ebenfalls zu 
y i = 0. Die Summe der Anteile der entfernten Verfahren wird dem des 
Originalbilds Oy 9 hinzugefügt. Somit besteht die Approximation aus 
den drei Methoden mit den höchsten Anteilen und dem Originalbild. 


3.3 Augmentierungsstrategien 


Für das Augmentieren von Bildtrainingsdaten hat sich eine reine Aug- 
mentierung auf den Bilddaten durchgesetzt, da diese intuitiv und durch 
die Arbeiten von SchuLz-MirBAchH [137] interpretierbar ist. Die Bildverar- 
beitung bietet ein weites Repertoire an möglichen Operationen für eine 
Augmentierung. Diese umfassen Koordinatentransformationen, Farb- 
wertmanipulationen, Entfernen von Informationen und das Hinzufügen 
von Rauschen. Jedoch ist das Verhalten einzelner Operationen für die 
Augmentierung datensatzspezifisch und kann daher positive wie negati- 
ve Einflüsse auf die Testgenauigkeit haben [67]. Im Folgenden werden 
daher Verfahren für die automatische datensatzspezifische Suche nach 
einer geeigneten Augmentierungsstrategie vorgestellt, die auf Grundlage 
des Lerndatensatzes X, ermittelt werden. Es wird implizit angenommen, 
dass die Lern- und Testdaten mit der gleichen Verteilung erzeugt wurden 
und sich somit hinreichend ähneln. 


3.3.1 Stand der Technik 


AutoAugment [30] ist die erste Veröffentlichung zur systematischen Suche 
nach einer optimalen Augmentierungsstrategie für Objektklassifikati- 
onsaufgaben. Hierfür wird der Suchraum für die Augmentierung dis- 
kretisiert, indem die Augmentierungsstrategie Taug in 25 Unterstrategien 
unterteilt wird, die durch ein Tupel von zwei Operationen beschrieben 
werden. Jede Operation O; 4, eines Tupels wird durch zwei Parameter 
beschrieben: die Wahrscheinlichkeit p, „„, dass die Operation ausgeführt 
wird, und, falls diese ausgeführt wird, die Stärke u; aa der Operation. 
Somit können durch eine Unterstrategie vier verschiedene Bilder erzeugt 
werden. Bei 25 Unterstrategien ergeben sich somit aufgrund der red- 
undanten Identität maximal 76 mögliche Ausgaben für ein Bild. Dies 
entspricht in etwa der Anzahl, die notwendig ist, damit sich Offline- und 
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Online-Augmentierung ahnlich verhalten (s. Anhang A.1). Als Opera- 
tionen werden die Funktionen der P I L-Bibliothek verwendet, die ein 
Bild als Eingabe akzeptieren, sowie Cutout [35] und Sample Pairing [76]. 
Insgesamt sind dies 16 Operationen, wobei die Identität nicht explizit 
als Operation aufgeführt wird. Die beiden Parameter einer Operation 
werden jeweils auf elf Werte diskretisiert. Die beiden Operationen ei- 
ner Unterstrategie werden in einer Kaskade zusammen mit den drei 
Operationen zufälliger Spiegelung, zufälligem Ausschneiden und Cutout 
ausgeführt, sodass bis zu fünf Operationen auf ein Bild ausgeführt wer- 
den. Für die diskrete Suche wird Verstärkungslernen verwendet. Dabei 
wird in jedem Schritt ein CNN mit der aktuellen Strategie trainiert und 
die Generalisierungsfähigkeit des CNN anhand von 15.000 Stichproben 
der Strategie gemessen. Anhand dessen wird die Strategie anschließend 
aktualisiert. Das Verfahren erreicht zwar auf den verwendeten Daten- 
sätzen sehr hohe Genauigkeiten, jedoch sind die hierfür notwendigen 
Rechendauern von über 1.000 GPU-Stunden nicht praktikabel. 

Lm et al. [102] beschleunigen mit fast AutoAugment die Suche nach der 
Augmentierungsstrategie Taug indem Bayes’sche Optimierung verwen- 
det wird, was die Anzahl an zu evaluierenden Augmentierungsstrategien 
stark reduziert. Darüber hinaus wird anstelle des Trainings eines CNN 
und der Bestimmung der Fähigkeit zur Generalisierung die Ähnlichkeit 
der Verteilungen der Datensätze gemessen (engl. density matching). Dies 
wird dadurch motiviert, dass der augmentierte Lerndatensatz durch 
seinen größeren Stichprobenumfang bei geeigneter Augmentierung dem 
Testdatensatz bzw. ungesehenen Daten bzgl. seiner intrinsischen Ver- 
teilung ähnlicher wird. Da Testdaten i. A. während des Trainings nicht 
verfügbar sind, wird der Lerndatensatz X, in einen zu augmentierenden 
Teildatensatz X, und einen Validierungsdatensatz Xy unterteilt. Der Ver- 
gleich der Verteilungsfunktionen geschieht indirekt, indem ein Modell 
mit Xy trainiert wird und die Genauigkeit von Taug( Xa) an diesem Modell 
ermittelt wird. Jede Unterstrategie wird so bei einer unterschiedlichen 
Aufteilung des Lerndatensatzes X, unabhängig voneinander bestimmt. 
Fast AutoAugment reduziert die Rechendauer circa um den Faktor 1.000, 
führt aber zu leicht schlechteren Ergebnissen. 

In RandAugment [31] wird kein Modell mehr verwendet, um die Qua- 
lität der Augmentierung zu bestimmen, da dies zu suboptimalen Er- 
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gebnissen führt. Stattdessen wird der Suchraum verkleinert, indem jede 
Operation mit der gleichen Wahrscheinlichkeit ausgewählt wird. So- 
mit sind statt bestimmter Unterstrategien beliebige Kombinationen der 
Augmentierungsoperationen möglich. Der Stärkeparameter ist für alle 
Operationen gleich. Somit sind mit der Länge der Kaskade und dem 
Stärkeparameter lediglich zwei Parameter für Taug zu bestimmen. Nach 
einer Diskretisierung in jeweils zehn Werte hat der Suchraum eine Größe 
von 100. Dies reicht aus, um die Augmentierungsstrategie direkt bzgl. 
des Ziel-CNN zu optimieren. 

Der Ansatz von faster AutoAugment (FAA) [61] verwendet eine GAN- 
artige Struktur, um zwischen augmentierten und unveränderten Da- 
ten zu unterscheiden. Dabei werden die gemäß der gefundenen Aug- 
mentierungsstrategie Taug augmentierten Bilder 7,..(X,) anstelle der 
von durch ein Generatornetzwerk generierten Bilder verwendet. Bei der 
Augmentierungsstrategie wird die Einteilung in Unterstrategien gemäß 
dem AutoAugment-Verfahren verwendet und die Strategie wird wäh- 
rend der Lernphase des Diskriminators erlernt, welcher hinsichtlich der 
Wasserstein-Distanz und der Klassifikationsfähigkeit zwischen Original- 
und augmentierten Daten optimiert wird. Für das Verfahren ist die Diffe- 
renzierbarkeit der Augmentierungsstrategien sowie der jeweiligen Ope- 
rationen bzgl. der Auswahlwahrscheinlichkeit und der Stärke der Ope- 
ration notwendig. Als Verteilungsfunktion für die Ausführwahrschein- 
lichkeit p; aa wird daher eine kontinuierliche Bernoulli-Verteilung nach 
[80] verwendet. Für die Stärke u; „a einer Operation wird ein Straight- 
Through-Schätzer gemäß [8] verwendet. Dieser definiert die Operation zu 
OXI, ui aa) = StopGradient(O; aa(L Hi aa) — Hi aa) + Hi,aa, wodurch sie 
differenzierbar bzgl. u; aa wird, da mithilfe der Funktion StopGradient 
der Gradient der ursprünglichen Operation O; aa unterdrückt wird. Für 
die Suche nach den Operationen einer Unterstrategie wird ein von [107] 
inspiriertes Verfahren verwendet, bei dem in der Lernphase eine ge- 
wichtete Summe der verwendeten Operationen berechnet wird, deren 
Gewichte trainierbar und aufgrund der softmax-Aktivierung nichtne- 
gativ sind und sich auf 1 summieren. Nach dem Training werden die 
Gewichte als Koeffizienten einer verallgemeinerten Bernoulli-Verteilung 
interpretiert, anhand derer die Unterstrategien abgetastet werden. 


36 


3.3 Augmentierungsstrategien 


Im Gegensatz dazu generieren andere Ansatze ktinstlich Daten mithil- 
fe von Bayes’schen Ansätzen [162], konventionellen GAN-Strukturen [83] 
oder Domänenrandomisierung [163]. Dies zielt darauf ab, die Verteilung 
der augmentierten Lerndaten zu erweitern, anstatt sie zu interpolieren, 
mit der Absicht, dass die Verteilung der Testdaten innerhalb der ver- 
größerten Verteilung der augmentierten Daten liegt und nicht mehr zu 
dieser möglichst ähnlich ist. Dieser Ansatz wird in diesem Teil der Ar- 
beit nicht weiter betrachtet, da eine solche Vergrößerung eine höhere 
Kapazität des CNN erfordert, was zu Ineffizienzen führen kann. 


3.3.2 Modifiziertes AutoAugment-Verfahren 


Im Folgenden wird das FAA-Verfahren aufgegriffen und für die Zwecke 
dieser Arbeit weiterentwickelt. 

Die Ursache für die hohe Laufzeit liegt in der Größe des Suchraums 
für die AutoAugment-Verfahren. Bei RandAugment wird der Suchraum 
zwar enorm reduziert, jedoch hat dies zur Folge, dass für alle Opera- 
tionen die Stärke upaa verwendet wird. Dies wird der Tatsache nicht 
gerecht, dass je nach Datensatzdomäne CNNs unterschiedlich sensibel 
gegenüber bestimmten Varianzen sein sollten. Bspw. ist bei Bildern mit 
bestimmten Texturen in den Testdaten eine höhere Varianz bzgl. Ro- 
tation zu erwarten als bzgl. der Helligkeit, wenn alle Bilddaten unter 
den gleichen Umgebungsbedingungen aufgenommen wurden. Ferner 
ist RandAugment dahingehend problematisch, dass ungewollte Kombi- 
nationen von Operationen auftreten können. Daher wird der Suchraum 
im Folgenden durch eine Kombination von RandAugment und faster Au- 
toAugment reduziert: Die Struktur der Unterstrategien bleibt erhalten 
und die Ausführwahrscheinlichkeit p; „a wird entfernt. Die Stärke einer 
Operation folgt einer Gleichverteilung U (0, u; aa) bzw. U(—u; aa; MiAA): 
Diese Formulierung erlaubt einerseits Operationen mit Vorzeichen (z.B. 
Winkel bei der Rotation, Reduktion und Erhöhung von Helligkeit, ...) 
und andererseits macht dies das FAA-Verfahren als Interpretation des 
integrativen Weges zur Konstruktion von invarianten Merkmalen nach 
ScHULZ-MirBacH [137] stringenter. Diese Methode wird im Weiteren als 
FAAR (faster AutoAugment + Random Magnitude) bezeichnet. 

Gemäß [37] haben Unschärfe und Rauschen einen sehr schädlichen 
Effekt auf die Klassifikationsergebnisse eines trainierten CNN, falls kei- 
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ne Invarianzen gegenüber diesen Störungen aufgebaut wurden. Ferner 
mangelt es AutoAugment und dessen Erweiterungen an Operationen, 
die Irrelevanzen wie Rauschen hinzufügen oder Informationen entfer- 
nen. Daher werden das Hinzufügen von additivem normalverteiltem 
Rauschen, additivem gleichverteiltem Rauschen und Impulsrauschen 
sowie die Filterung mit einem Gaußtiefpass als weitere Operationen 
hinzugefügt. Zusätzlich werden durch die Operation Farbverschiebung, 
bei der ein konstanter Wert auf einen der drei Farbkanäle addiert wird, 
ein fehlender Weißabgleich und unterschiedliche Beleuchtungsquellen 
simuliert. Diese AutoAugment-Variante wird im Weiteren als FAARO 
(faster AutoAugment + Random Magnitude + More Operations) bezeichnet. 


3.4 Quantisierung 


Obwohl sich neuronale Netze als Stand der Technik für Bildverarbei- 
tungsaufgaben in vielen Domänen durchgesetzt haben, werden die Netze 
i.d. R. mit mindestens halber Genauigkeit, d.h. mit 16-Bit-Gleitkomma- 
Arithmetik, entworfen, was deren Inferenz nur auf Geräten mit ent- 
sprechenden Kapazitäten erlaubt. Da nicht selten mehrere Millionen 
MAC-Operationen für die Inferenz nötig sind und eine ähnlich hohe 
Anzahl an Parametern gespeichert werden muss, sind die erforderlichen 
Ressourcen im Vergleich zu einem gröber quantisierten Netz um ein 
Vielfaches höher: Im Vergleich zur halben Genauigkeit benötigt eine 
8-Bit-Festkomma-Architektur für eine MAC-Operation 18,5-mal weni- 
ger Energie, 27,5-mal weniger Platz auf einem Mikrochip und nur die 
Hälfte an Speicherplatz [70]. Eine solche Reduzierung der benötigten 
Ressourcen ermöglicht die Implementierung auf kleinen oder batterie- 
betriebenen Geräten wie herkömmlichen FPGAs oder Mobiltelefonen. 
Daher wird im Folgenden ein Quantisierungsverfahren für CNNs vor- 
gestellt, das in [192] und dessen Erweiterungen in [185] veröffentlicht 
wurden. 


3.4.1 Stand der Technik 


Die bekannten Quantisierungsverfahren können im Wesentlichen in drei 
Gruppen eingeteilt werden: Die erste Gruppe enthält Methoden, die die 
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Gewichte eines CNN nach der Lernphase quantisieren, indem nach opti- 
malen Quantisierungsstufen gesucht wird. Für diese Gruppe ist i. A. eine 
Umsetzungstabelle (engl. lookup table) in der Inferenz erforderlich, um die 
Originalgewichte aus den Quantisierungsstufen zurückzugewinnen. Da 
die MAC-Operationen dann mit halber Genauigkeit ausgeführt werden, 
wird durch diese Verfahren lediglich der Speicherbedarf der Inferenz 
reduziert. CHEN et al. zeigen in [20], dass eine Kombination aus linearer 
Quantisierung und einer Quantisierung, deren Quantisierungsstufen 
der Häufigkeit der Werte der Gewichte folgen, den Varianten mit linear 
bzw. zufällig gewählten Quantisierungsstufen überlegen ist. Es können 
6- bis 9-Bit-Repräsentationen eines VGG-Net erreicht werden, die einen 
Genauigkeitsverlust von ca. 1% für CIFAR-10 erreichen. In [103] werden 
die optimalen Quantisierungsstufen für Gewichte und Aktivierungen 
analytisch berechnet und anschließend wird das CNN durch eine Feinab- 
stimmung nachgelernt. Hierdurch wird für eine 8-Bit-Quantisierung bei 
CIFAR-10 eine Verbesserung der Genauigkeit von 0,03 Prozentpunkten 
gegenüber der Gleitkomma-Arithmetik erreicht. In [57] wird das Ver- 
fahren Ristretto vorgestellt, das die Gleitkomma-Arithmetik eines CNN 
iterativ zu einer dynamischen Festkomma-Arithmetik überführt. Dabei 
werden die Histogramme der Gewichte und Aktivierungen analysiert 
und dann die am besten geeignete Bitlänge bestimmt. Falls keine Aug- 
mentierung verwendet wird, erreicht diese Methode einen Abfall an 
Genauigkeit von weniger als 0,9 Prozentpunkten für CIFAR-10 für un- 
terschiedliche CNN-Topologien. Das Deep-Compression-Verfahren nach 
[59, 60] unterteilt die Gewichte in k Cluster, was den Speicherbedarf 
auf log,(k) Bit pro Gewicht reduziert. Anschließend wird mithilfe einer 
Huffman-Codierung der benötigte Speicherplatz weiter reduziert. Das 
Verfahren hat eine regularisierende Wirkung auf das CNN, da durch 
das Ausdünnen von großen CNNs bessere Optima gefunden werden 
können. 

In der zweiten Gruppe werden Regularisierungsverfahren während 
der Lernphase verwendet, um den Quantisierungsfehler in der Testpha- 
se zu minimieren. Dadurch werden die Quantisierungseffekte schon 
während des Trainings berücksichtigt. SHENc et al. stellen in [140] einen 
Regularisierungsterm für MobileNets [72] vor, bei dem die Leistung des 
Quantisierungsrauschens der Aktivierungen und Gewichte bestraft wird. 
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Die Quantisierungsstufen sind somit bereits vor dem Training festgelegt 
und das CNN wird während des Trainings darauf optimiert. Jedoch 
führt dieses Verfahren zu einer Verschlechterung der Genauigkeit von 
über 1% bei einer 8-Bit-Quantisierung, was auf die Quantisierung der 
BN-Schicht und die ReLU-Aktivierung, die in ein halboffenes Intervall 
abbildet, zurückzuführen ist. 

Bei den Methoden der dritten Gruppe werden Skalierungsfaktoren 
während des Trainings verwendet, um den optimalen Wertebereich der 
Parameter zu finden. Bei der dynamischen Festkomma-Arithmetik nach [28] 
ist eine Bitlänge gegeben, für die ein Skalierungsfaktor adaptiv für jede 
Schicht des CNN berechnet wird, um die optimale Position des Kom- 
mas zu finden. Hierfür werden sog. Überlaufraten berechnet, die den 
Anteil der Parameter darstellen, die nicht durch den Wertebereich der 
Quantisierung darstellbar sind. Überschreitet diese Rate den Wert 0,01 
Prozent, wird das Komma nach rechts verschoben. Ohne Augmentie- 
rung liefert das Verfahren für CIFAR-10 gegenüber halber Genauigkeit 
eine Verschlechterung der Testgenauigkeit von ca. 0,8 Prozentpunkten 
und benötigt eine 10-Bit-Quantisierung, wobei 5 Bit hinter dem Komma 
benötigt werden. Der Gewinn der dynamischen Festkomma-Arithmetik 
gegenüber der konventionellen Festkomma-Arithmetik beträgt hierbei 
7 Bit. In [56] wird ein Greedy-Algorithmus verwendet, um die optimale 
Bitlänge zu bestimmen. Im Kontrast dazu stellt Jacos et al. in [78] eine 
Ganzzahl-Arithmetik für neuronale Netze vor, die auch Aktivierungen 
quantisiert. Während des Trainings werden hierfür 8-Bit-Ganzzahlen auf 
reelle Zahlen abgebildet, um eine Matrixmultiplikation zu einer Ganz- 
zahlmultiplikation umzuwandeln. Dafür ist eine Skalierung mit einer 
reellen Zahl erforderlich, da die Gewichte auf Ganzzahlen im Bereich 
[-128, 127] beschränkt sind. 


3.4.2 Quantisierung mittels Skalierungsfaktoren 


Das im Folgenden beschriebene Verfahren ist in die dritte Gruppe nach 
Abschnitt 3.4.1 einzuordnen. Für eine FPGA-Implementierung ist eine 
Quantisierung der Gewichte — insbesondere für BN-Schichten — und 
der Aktivierungen erforderlich. Dieses Verfahren vermeidet zusätzliche 
Operationen wie bspw. Skalieren während der Inferenz und verwendet 
ausschließlich Festkommazahlen derselben Länge für die Inferenz. 
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Ein Festkomma-Quantisierungsschema ist gegeben durch die Ganz- 
zahlbitlänge L,1, die Nachkomma-Bitlänge L,; und ggf. ein Vorzeichen- 
bit. Da im Folgenden standardmäßig eine ReLU-Aktivierung verwendet 
wird, ist die Aktivierung nicht vorzeichenbehaftet. Somit wird nur für die 
Gewichte ein Vorzeichenbit benötigt, während dies für die Aktivierung 
nicht der Fall ist. Über die Bitlängen ist die Breite einer Quantisierungsstu- 
fe mit A, = 277a und die maximale Amplitude mit A, = 27a ableitbar. 
Für das im Folgenden beschriebene Verfahren ist die Festsetzung der 
Bitlängen für Aktivierungen (ZL 11; Lyra) und Gewichte (L, w; LaEw) 
vor Beginn des Trainings erforderlich. Zum Zwecke der einheitlicheren 
Darstellung wird das zusätzlich benötigte Vorzeichenbit der Gewichte 
als Teil der Ganzzahlbits L, rw betrachtet. Die maximale Amplitude ist 
dann Agw = 2. 

Bei der Verwendung einer (leaky) ReLU als Aktivierungsfunktion 
kann gezeigt werden, dass eine Skalierung der Ausgabekarte Y, mit dem 
Skalierungsfaktor s; > 0 gleichbedeutend ist mit der entsprechenden 
Skalierung der Filterkerne k; und Biasterme b,. Gl. (2.4) wird dann zu 


s1: Yı = 03x. (X **(87k;) + 577). (3.3) 


Jeder Skalierungsfaktor s; korrespondiert mit genau einem Filterkern k,. 
Das vorgestellte Quantisierungsverfahren nutzt diese Linearitat, um fiir 
jeden Filterkern einen Skalierungsfaktor zu bestimmen, sodass der durch 
Ly a und L,ıw vorgegebene Wertebereich eingehalten wird. Daraus 
ergeben sich die folgenden Bedingungen an s;: 


! 
ym := max {Oar (X (sik) + 5,b,)} < Ach 5 Aga: 
! 
KR := max {|s, . k,|} < Agw = Aww: 
! 
Is, ; bi < Agw = Aww: (3.4) 


Für die Quantisierung des neuronalen Netzes werden die Skalierungs- 
faktoren für jede Faltungsschicht während der Lernphase durch einen 
gleitenden Mittelwert bestimmt. Die Skalierungsfaktoren werden nach 
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jeder Charge B aktualisiert. Für eine Faltungsschicht ergibt sich der Ska- 
lierungsfaktor s, zu 


sı <— mg 8, + (1 - my): 2, mit 
Qa: (Au - A a,:(Agw—A 
zg Zii { q ( qA qA) q ( qW qw) } 


Y ‚max max{H, max; bi} oe 


wobei m, das Momentum des gleitenden Mittelwertes ist, dessen Wert 
wie der der Chargennormalisierung bestimmt wird, und Qq einen Puffer 
darstellt. Der Puffer ist ein Hyperparameter, der den Uberlauf einzelner 
Aktivierungen erlaubt oder bestraft. Die Skalierungsfaktoren werden auf 
einen Maximalwert begrenzt, um hohe Werte für den temporären Ska- 
lierungsfaktor z; g infolge von schwachen Aktivierungen zu vermeiden, 
und mit s, = 1 initialisiert. 

Da die Eingabe X in die Faltungsschicht a priori nicht bekannt ist, 
kann es dazu kommen, dass einzelne Werte der Ausgabekarte Y; eines 
Filterkerns den maximal zulässigen Wert A, a — A, q überschreiten. In 
der Inferenz werden Aktivierungen, die diesen Wert tiberschreiten, ab- 
geschnitten. Um den daraus folgenden negativen Effekt schon wahrend 
des Trainings zu berticksichtigen, wird die ReLU wie folgt manipuliert. 
Außerdem wird die Rundung auf den Wert 0 bei der Quantisierung be- 
rücksichtigt, da diese insbesondere bei betragsmäßig kleinen Gewichten 
einen großen relativen Fehler verursacht. Die Aktivierung wird zu 


A 
0 für < —, 
n Aq 
oq, akt(Z) = | x er fiir > <@<Aga—Aga; (3.6) 
m+ sonst. 


Um die Verwendung von vollstandig verbundenen Schichten zu ver- 
meiden, werden diese als Faltungsschicht mit (1 x 1)-Filterkernen inter- 
pretiert. Außerdem wird eine GAP-Schicht (engl. global averaging pooling 
layer) verwendet, was die Reduktion der Anzahl der (1 x 1)-Faltungs- 
schichten auf eine einzige ermöglicht. 

Die Skalierungsfaktoren für jeden Filterkern führen dazu, dass die 
Verteilung der Aktivierungen begrenzt ist. Dies kann als normalisierend 
betrachtet werden, wodurch der Einsatz einer Chargennormalisierungs- 
schicht obsolet wird. Außerdem dient eine L2-Regularisierung dazu, 
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Ausreifser bei den Gewichten zu vermeiden. Ferner wird durch eine 
zusätzliche L,-Regularisierung eine höhere Anzahl an Nullen in den Ge- 
wichten erzwungen, was den mittleren Quantisierungsfehler reduziert. 

Nach dem Training werden die Skalierungsfaktoren mit den jeweili- 
gen Gewichten multipliziert. Man erhält k, + kıs; und b, + bısı. Die 
skalierten Gewichte werden dann quantisiert, indem die Werte stochas- 
tisch gerundet werden. Dies bedeutet, dass abhängig vom Abstand zu 
den nächsten beiden Quantisierungsstufen eine Wahrscheinlichkeit be- 
rechnet wird, mit der Wert zu der jeweiligen Stufe gerundet wird. Für 
die Inferenz können dann Faltungsschichten aus den Standardbibliothe- 
ken wie tensorflow verwendet werden. Um die Aktivierung gemäß 
dem Quantisierungsschema entsprechend zu runden und abzuschnei- 
den, werden nach den Standardfaltungsschichten entsprechende Ak- 
tivierungsschichten eingefügt. Dieser Prozess wird im Folgenden als 
Konvertierung des quantisierten CNN bezeichnet. 


3.4.3 Erweiterungen 


Die Erweiterungen umfassen ein Vortraining zur Bestimmung geeig- 
neter initialer Skalierungsfaktoren, ein Feinabstimmungsverfahren für 
die Gewichte, das Channel-Pruning-Verfahren nach He et al. [64] zur Re- 
duktion von Redundanzen eines CNN und eine bisher unveröffentlichte 
Erweiterung, bei der der Quantisierungseffekt durch Hinzufügen von 
Rauschen nachgeahmt wird. Die Verfahren werden im Folgenden einzeln 
beschrieben. 


Vortraining 

Vortraining ist ein iterativer Prozess zur Bestimmung geeigneter initialer 
Skalierungsfaktoren. Das Skalierungsverfahren aus Abschnitt 3.4.2 ist für 
kleine CNNs ausgelegt. Bei tieferen Netzen verschlechtern sich die Kon- 
vergenzeigenschaften des Skalierungsverfahrens: Bspw. konvergieren bei 
VGG-19 nur ca. 90% aller Trainingsversuche, was auf die Initialisierung 
der Gewichtsfaktoren mit dem Wert 1 zurückzuführen ist. Mit steigender 
Anzahl an Filterkernen D pro Schicht erhöht sich die Anzahl an Sum- 
mationen für jeden Punkt der Aktivierungskarte gemäß Gl. (2.4). Somit 
steigt die Wahrscheinlichkeit, dass ein Skalierungsfaktor mit dem Wert 1 
dazu führt, dass die Werte der korrespondierenden Aktivierungskarte 
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weit außerhalb des gültigen Wertebereichs [0, Ag 4 — A, a] liegen, was 
die Konvergenzeigenschaften stark negativ beeinflusst. Da eine Ausdeh- 
nung des Wertebereichs nicht sinnvoll ist, weil dies zu einer gröberen 
Quantisierung oder einem uneinheitlichen Quantisierungsschema führt, 
ist eine gute Initialisierung der Skalierungsfaktoren notwendig. 

Beim Vortraining werden bei jeder Iteration die Skalierungsfaktoren 
sı = %,10p für jeden Filterkern einer Schicht nach Gl. (3.5) ohne gleitende 
Mittelwertbildung bestimmt. Um den maximalen Skalierungsfaktor bzgl. 
der Aktivierungen zu bestimmen, werden zehn Chargen ausgewertet. 
Filterkerne, für die Y; max = 0 gilt, werden zufällig reinitialisiert. An- 
schließßend wird das CNN mit mehreren hundert Chargen trainiert. Erst 
dann beginnt die nächste Iteration. 


Feinabstimmung 

Durch das Runden zur nächsten Quantisierungsstufe bei der Quanti- 
sierung werden die globalen Effekte des Quantisierungsrauschens auf 
die Klassifikationsleistung nicht berücksichtigt. Diese können aufgrund 
eines regularisierenden Effekts positiv (s. [60]) oder negativ sein, da ins- 
besondere Gewichte, deren Betrag kleiner als 4qw/2 ist, ihren Einfluss auf 
die Aktivierung verlieren. Diese Gewichte sind vermehrt in den hinteren 
Schichten zu finden. 

Daher wird in der Feinabstimmung das CNN mit einem zusätzlichen 
Strafterm erneut trainiert, der größere relative Fehler stärker bestraft. Der 
relative Fehler ist als Strafterm ungeeignet, da für Werte der Gewichte, 
die im Bereich des relativen Fehlers liegen, keine sinnvollen Ergebnisse 
zu erwarten sind, da der Gradient konstant 1 ist. Daher wird für jedes 
Gewicht he H des CNN der folgende Strafterm verwendet: 


LH) = I, —Aglog(|hl) - (h-h®) + Am min {0, |h|—Agw}, 
hen 
(3.7) 
wobei h(9 der quantisierte Wert von h ist. Der hintere Teil des Regulari- 
sierungsterms verhindert, dass die Gewichte ihren Maximalwert über- 
schreiten. Die Straffunktion ist in Abb. 3.4 illustriert. 
Die Feinabstimmung wird nach der Skalierung der Gewichte k, + ks; 


und b, + bısı und vor dem Zuordnen der Gewichte zu den Quantisie- 
rungsstufen ausgeführt. Dabei wird das CNN schichtweise mit dem Ziel 
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Abbildung 3.4 Strafterm der Feinabstimmung für eine 4-Bit-Quantisierung mit Lj-Regu- 
larisierung. 


trainiert, den mittleren quadratischen Fehler zwischen der ursprüngli- 
chen Ausgabe und der feinabgestimmten Ausgabe zu minimieren. 


Channel Pruning 

Trainierte CNNs besitzen eine hohe Redundanz aufgrund ihrer Überpara- 
metrisierung, die für ein erfolgreiches Training notwendig ist [33]. Da die 
CNNs in dieser Arbeit für eine kritische Hardwareumgebung entworfen 
werden, ist die Verwendung eines Verfahrens zur Redundanzreduktion 
sinnvoll, um den Speicherbedarf zu senken und die Geschwindigkeit 
der Inferenz zu erhöhen. Das Channel-Pruning-Verfahren nach [64] ver- 
spricht eine Beschleunigung um den Faktor 5 bei geringen Verlusten in 
der Genauigkeit und wird im Folgenden beschrieben. 

Das Verfahren zielt darauf ab, einzelne Filterkerne kf?) aus einer Schicht 
i zu entfernen. Dies reduziert nicht nur die Anzahl L®) der Filterkerne 
und die dazugehörenden Gewichte dieser Schicht, sondern auch die Tiefe 
L® des Aktivierungstensors Y® und die Tiefe der Filterkerne DÜ+!) der 
darauffolgenden Schicht (vgl. Abb. 2.3). 

Beim Channel Pruning werden jeweils zwei Blöcke aus einem CNN 
extrahiert. Ein Block besteht aus einer Faltungsschicht und ggf. der Akti- 
vierung, einer Pooling-Schicht und einer Chargennormalisierungsschicht. 
Zwischen die beiden Blöcke wird eine sog. beta-Schicht eingefügt. Die- 
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se skaliert die Aktivierungskarte y'? des ersten Blocks mit dem Faktor 


Bicep = Omit] = 1,..., L, wodurch sich xt?) = Bice: y® als Eingabe 
des zweiten Blocks ergibt. Die Ausgabe des zweiten Blocks Y"*") wird 
weiterhin gemäß Gl. (3.3) berechnet. 

Das so erhaltene Subnetz wird mit dem Ziel trainiert, den mittleren qua- 
dratischen Fehler der neuen Ausgabe und der Originalausgabe unter der 
Nebenbedingung zu minimieren, dass der Vektor Bcp = [81.cp, ---, Br,cr] 
dünn besetzt ist. Daher wird ein L,-Regularisierer für die Faktoren 6, cp 
verwendet. Nach dem Training des Subnetzes können alle Filterkerne 
ky , für deren Faktor |8; cp| < €cp gilt, entfernt werden, da die korre- 
spondierende Ausgabekarte yi? einen verschwindenden Einfluss auf die 
folgenden Blöcke bzw. Schichten hat. Das Entfernen führt ferner dazu, 
dass der Eingabetensor des zweiten Blocks eine geringere Tiefe D be- 
sitzt und die entsprechenden Karten von kit) entfernt werden müssen. 
Dies reduziert zusätzlich den Speicherbedarf für Aktivierungen und 
Gewichte der nächsten Faltungsschicht. 

Nach dem Training ist es erforderlich, die gefundenen Faktoren cp 
mit den Gewichten des ersten Blocks zu multiplizieren. Wird Char- 
gennormalisierung verwendet, werden die entsprechenden Parameter 
Yen,  Pı,ce ‘Yan, und Ögn,ı = bcr’ Opn, Skaliert (vgl. Gl. (2.5)). Liegt 
keine Chargennormalisierungsschicht vor wie bspw. bei konvertierten 
zu quantisierenden Netzen, werden die entsprechenden Gewichte mit 
kf” + bire: kf und b, + {cp : b, skaliert. Letzteres ist potentiell 
schädlich für die Quantisierung, da implizit die Skalierungsfaktoren 
bzgl. der Gewichte verkleinert werden, was zu kleineren Gewichten und 
den dazugehörigen Schwierigkeiten bei der Quantisierung führt. 


Hinzugabe von Rauschen 
Die folgende Erweiterung wurde bisher noch nicht veröffentlicht. Das 
vorgestellte Quantisierungsverfahren hat das Ziel, dass insbesondere der 
Einfluss des Clippings bei der Quantisierung und die Quantisierung klei- 
ner Aktivierungen bereits während des Trainings berücksichtigt werden. 
Dabei bleibt der Einfluss der eigentlichen Quantisierung der Gewichte 
und Aktivierungen unberührt. 

Um den Einfluss der Quantisierung nachzubilden, wird daher wäh- 
rend des Trainings gleichverteiltes Rauschen auf die Gewichte und Akti- 
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vierungen addiert. Das Ratsehen fol ist fiir die Aktivierungen der Gleich- 
verteilung ng 4 ~ U(—2 bata! oraal) und für die Gewichte Dow ~ 
U(—2 “sew 427w), wobei bei ersterem das Rauschen vor der Ak- 
tivierungsfunktion (s. Gl. (3.6)) hinzugefügt wird. Hierdurch wird ins- 
besondere bei Aktivierungen, die kleiner als 444/2 sind, das Rauschen 
entfernt. Das Quantisierungsrauschen für Gewichte n, w wird mit dem 
korrespondierenden Skalierungsfaktor normiert (s. Gl. (3.8)), da in der 
Lernphase die Skalierung nach der Faltungsoperation ausgeführt wird. 
Es gilt für s; > 0 und eine ReLU-Aktivierung 


3X = Oyal X **(8/ky + ng w) + 51b, + Daw) 


eY, = = Oakt (x K (xı + =) + bi + =) A (3.8) 
5] 5] 


3.5 CNN Topologie 


Im Folgenden wird ein heuristisches Verfahren zur Bestimmung einer 
CNN-Topologie beschrieben. Dieses Verfahren wurde zuerst in [191] 
publiziert. In [190] wird eine Erweiterung und in [193] eine Adaption 
auf MobileNet-Architekturen nach [72] vorgestellt. Die Bestimmung einer 
geeigneten CNN-Topologie stellt insofern eine Herausforderung dar, da 
einerseits eine hohe Testgenauigkeit verlangt wird und andererseits für 
die Implementierung auf FPGAs oder mobilen Geräten strenge Hard- 
warelimitationen gelten. Da die bekannten Standard-CNNs oft überdi- 
mensioniert sind, wird die Topologie hier datensatzspezifisch entworfen, 
um den Ressourcenbedarf zu minimieren. 

Ferner wird untersucht, ob tiefere oder breitere CNNs besser für die 
gegebenen Klassifikationsaufgaben geeignet sind. Atom et al. zeigen in 
[2], dass diese Fragestellung abhängig vom Lerndatensatz ist. Außerdem 
zeigen sie, dass, während breitere Netze dazu neigen, bestimmte Bildei- 
genschaften auswendig zu lernen, tiefere Netze eine bessere Fähigkeit 
zum Generalisieren haben, da Merkmale auf höheren Abstraktionsebe- 
nen erlernt werden. 
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3.5.1 Stand der Technik 


In den frühen 2000ern wurden genetische bzw. evolutionäre Heuristiken 
fiir die Anordnung von Neuronen sowie fiir die Bestimmung der Ge- 
wichte ihrer Verbindungen verwendet [46, 97, 150]. Da diese Verfahren 
allerdings nur langsam konvergieren, wurden diese obsolet, als begonnen 
wurde, neuronale Netze mit Fehlerrückführung (engl. backpropagation) 
zu trainieren. Neuere Verfahren verwenden dagegen Verstärkungslernen, 
um geeignete CNNs zu finden [180]. 

In [172] wird ein genetischer Algorithmus dazu verwendet, um Fal- 
tungsoperationen zwischen vordefinierten CNN-Blöcken, die in einer 
festen Topologie verankert sind, miteinander zu vernetzen. Dagegen 
verwenden SUGANUMA et al. in [154] einen genetischen Algorithmus, der 
auf einer zweidimensionalen Anordnung von Knoten aufbaut. Die Kno- 
ten enthalten typische CNN-Operationen wie Faltungs-, Pooling- oder 
Summationsschichten. 

Ein Verfahren, das auf differentieller Evolution basiert, wird in [44] 
vorgestellt. Hierbei wird die Topologie eines Autoencoders für die Ent- 
fernung von Rauschen genetisch und die Gewichte trainingsbasiert be- 
stimmt. Aufgrund der Fitnessfunktion wird der Ressourcenbedarf dras- 
tisch reduziert, da vollständig verbundene Schichten zu Strukturen aus- 
gedünnt werden, die denen von Faltungsschichten ähneln. 

Allen vorgestellten Algorithmen ist gemeinsam, dass sie versuchen, 
die Validierungsgenauigkeit zu maximieren, indem für jede neue Topo- 
logie das zugehörige CNN mehrere Durchläufe trainiert wird, bevor die 
Genauigkeit bestimmt wird. Die Evaluierung der Fitness nimmt somit 
einen Großteil der Rechenzeit dieser Metaheuristiken in Anspruch. 


3.5.2 Heuristischer CNN-Entwurf 


Das vorgestellte heuristische Verfahren basiert auf differentieller Evo- 
lution [94], da diese Methodik gewöhnlicherweise mindestens genauso 
gut abschneidet wie eine Partikelschwarmoptimierung oder andere ge- 
netische Evolutionsstrategien [39]. Die differentielle Evolution ist eine 
populationsbasierte Metaheuristik, die mittels Gradientenabstieg eine 
Fitnessfunktion Fm (:) mithilfe einer Menge an Kandidaten, der sog. Po- 
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pulation P, maximiert. Der Gradient gun ; bzgl. eines Merkmalsvektors 
tug, wird i. A. gemäß [133] 


Iuu (tei) = 5 (Five) = Fus(i))  (kum,; — tun.) (3.9) 
JER, 

bestimmt, wobei Fuy(-) die auf den Bereich [0, 1] normierte Fitness einer 
Population ist. Eine Iteration der differentiellen Evolution besteht aus 
den drei Schritten Vektoraktualisierung (engl. vector updating), Vektor- 
sprung (engl. vector jumping) und Erneuerung (engl. refreshing). Wahrend 
Gl. (3.9) bei der Vektoraktualisierung angewandt wird, dienen Vektor- 
sprung und Erneuerung zur Vermeidung lokaler Extrema durch zufällige 
Modifikationen (Vektorsprung) oder Änderung des Evaluationspunktes 
(Erneuerung). 

In dieser Arbeit wird ein zweistufiger Ansatz für die differentielle Evo- 
lution verwendet, um die Anzahl der Schichten Lyn ; und der Filterker- 
ne by; pro Schicht als Merkmale getrennt voneinander zu optimieren. 
Während für die Schätzung des Gradienten der Tiefe Lyrn, ; die gesamte 
aktuelle Population 8, verwendet wird, werden für die Breite nur die 
Kandidaten mit der gleichen Tiefe verwendet. 

Der Algorithmus besteht nach der Initialisierung aus Iterationen, in 
denen zuerst ein Gradientenschritt bzgl. der Tiefe und dann bzgl. der 
Breite berechnet wird und anschließend ein Teil der Population % zufällig 
variiert wird. Die einzelnen Schritte werden im Folgenden für gemäß 
Abschnitt 3.4 quantisierte CNNs näher beschrieben. 


Aufbau der CNNs und Initialisierung 

Als Tiefe bzw. Länge des i-ten CNN Lyx, wird im Folgenden die An- 
zahl an Blöcken vor dem Ausgabeblock verstanden, welcher aus einer 
(1 x 1)-Faltungsschicht, einer GAP-Schicht und einer geeigneten Akti- 
vierungsfunktion besteht. Ein Block besteht ansonsten aus einer modifi- 
zierten Faltungsschicht (vgl. Gl. (3.3)) und ggf. einer Max-Pooling-Schicht. 
Jeder dieser Blöcke hat die Anzahl an Filterkernen als Parameter. Um 
zu große und kleine CNNs zu vermeiden, wird die Länge Luy, auf 3 
bis 14 Blöcke limitiert. Die Anzahl der Filterkerne wird durch den Vek- 
tor byn ; mit den Luy, Einträgen bmp, € [82; 512] mit I = 0, ..., Lynn; 
parametrisiert, wobei jeder Eintrag der Anzahl der Filterkerne der korre- 
spondierenden Schicht entspricht. Die Beschränkungen bzgl. der Breite 
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der Schichten ergeben sich aus den Ergebnissen in Abschnitt 4.4.1. Max- 
Pooling-Schichten treten nur in den Blécken auf, die mit den Stellen der 
Max-Pooling-Schichten eines VGG-19-Netzes korrespondieren. Um die 
Dreidimensionalität der Aktivierungstensoren nicht zu zerstören, wer- 
den keine Max-Pooling-Schichten mehr verwendet, wenn die Höhe H bzw. 
Breite B des Tensors den Wert 4 unterschreiten würde. Eine Topologie 
ist somit durch die beiden Parameter Lyr ; und bmy,; darstellbar. 

Bei der Initialisierung werden Nun,o/2 Topologien zufällig mit zulässi- 
gen Parametern erzeugt und für nyy o Durchläufe trainiert, bevor die 
Fitness bestimmt wird. Anschließend werden die Topologien dupliziert, 
um Nmn, Initialtopologien zu erhalten. Die Menge an Topologien wird 
als Population 8, bezeichnet. 


Fitnessfunktion Fyn(:) 

Die Fitnessfunktion aggregiert die Validierungsergebnisse und den Res- 
sourcenbedarf, um eine CNN-Topologie i zu bewerten. Hierzu wird die 
an einem Validierungsdatensatz ermittelte Genauigkeit amy, ; und die 
Kreuzentropie Hyp; ermittelt. Der Ressourcenbedarf wird anhand des 
Speicherbedarfs syn; für Aktivierungen und Gewichte in KB! sowie 
der Gesamtzahl an MAC-Operationen oyr ; für ein Bild in der Inferenz 
bestimmt (vgl. Abschnitt 2.2.2). Die Fitnessfunktion ist gegeben als 


. Aa Ay 
Fra) = 1— amu, +€ = Ayn: + € 
— Ag logy (SMH,;) = Ao lo8g10(0MH,i); (3.10) 


wobei A{a,H,s,} Gewichtungsparameter sind und A, sowie à, um den 
Faktor 10 erhöht werden, wenn der maximale Speicher shi überschritten 
wird. Die einzelnen Terme der Fitnessfunktion verhindern, dass die 
Fitness bei sinkender Genauigkeit durch die Verkleinerung der Topologie 


verbessert wird. 


Iteration 
Eine Iteration besteht aus drei Schritten und bildet eine Population PB, auf 


1 Bei der Evaluation wird eine 8-Bit-Quantisierung verwendet. Damit entspricht die 
Anzahl der Gewichte und Aktivierungen ihrem Speicherbedarf in Bytes. 
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eine Population $B, , ab. Hierfür wird die Population in Teilpopulationen 
PP unterteilt, deren Topologien die gleiche Tiefe Lyg = l haben. 

Im ersten Schritt wird für jede Teilpopulation sp” eine Topologie i 
mittels Roulette-Wheel-Selektion [69] gemäß der Wahrscheinlichkeits- 
verteilung 


&xptFunÜ)} 


PUMY mit ge (3.11) 
Yopi exp{Fun)} : 


P(i) = 


ausgewählt. Anschließend wird ein Gradient gyr(Lun ;) gemäß Gl. (3.9) 


gebildet. Dieser wird mit pew |"! normiert, ggf. bei —2 bzw. +2 abge- 
schnitten und stochastisch gerundet. Je nach Wert des Gradienten werden 
nun der i-ten Topologie am Ende Blöcke mit Faltungsschichten hinzuge- 
fügt oder entfernt. 

Im zweiten Schritt wird auf die gleiche Weise ein Gradient bzgl. der 
Breite byy; innerhalb jeder Teilpopulation p” berechnet. Hierfür wer- 
den ebenfalls Topologien gemäß Gl. (3.11) ausgewählt. Der Gradient wird 
mit 25/\3\”| skaliert und der Betrag der Einträge des Gradienten wird auf 
64 beschränkt. Entsprechend dem Vorzeichen und den Werten des ska- 
lierten Gradienten werden den Schichten der ausgewählten Topologie 
Filterkerne k; 4 hinzugefügt oder daraus entfernt. Dies erfordert das ent- 
sprechende Verändern der Tiefe der Filterkerne der darauffolgenden 
Schicht (vgl. Abb. 2.3). 

Der dritte Schritt ist eine zufällige Mutation der Breite und Tiefe von 
insg. zwei gemäß Roulette-Wheel-Selektion ausgewählten Topologien, 
um die Diversität der Gesamtpopulation zu erhöhen. Hierbei werden 
den Topologien mit jeweils einer Wahrscheinlichkeit von 1/3 eine Schicht 
hinzugefügt, eine Schicht entfernt oder es wird gar keine Operation 
ausgeführt. Darüber hinaus wird die Breite jeder Schicht byy, um ei- 
nen zufälligen Wert zwischen —25 und +25 geändert. Die jeweiligen 
Zahlenwerte wurden empirisch ermittelt. 

Die ersten beiden Schritte sind als Vektoraktualisierung und der dritte 
Schritt ist als Vektorsprung interpretierbar. Eine Vektorerneuerung wird 
nicht durchgeführt. Nach jedem Iterationsschritt wird die Menge der 
Individuen der Gesamtpopulation 8, um die Schlechtesten reduziert, 
wodurch die Konvergenzgeschwindigkeit erhöht wird. 
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Training 

Nach jeder Operation einer Iteration wird das aus der Topologie resultie- 
rende CNN für nmyy,„ Durchläufe trainiert. Dabei wird die Anzahl der 
Durchläufe linear bei jeder Iteration erhöht. Das Training beginnt jeweils 
mit einer konstanten Initiallernrate, die kosinusartig abfällt. 

Besonders an diesem Ansatz ist, dass die Gewichte nach jeder Verän- 
derung aus dem Elternetz geladen werden und das resultierende CNN 
kurz damit trainiert wird, bevor die Fitness gemessen wird. Dadurch 
reduziert sich die Dauer für die Auswertung der Fitnessfunktion für 
eine Topologie deutlich. Bei einer Verkleinerung der Breite werden die 
Filterkerne mit der geringsten Vektornorm || - ||» entfernt und bei ei- 
ner Vergrößerung werden zufällig initialisierte Kerne hinzugefügt. Dies 
ist zusammen mit dem Lernratenabfall als Initialisierung der Lernrate 
interpretierbar und folgt den Beobachtungen von [101]. 

Nach den T Iterationen findet ein abschließendes Training der fittesten 
Topologie mit nyy, r+1 Durchläufen statt. 


3.6 Verarbeitungskette 


Für das Lösen einer Bildklassifikationsaufgabe mit quantisierten CNNs 
mittels der in diesem Kapitel vorgestellten Verfahren ergibt sich eine 
Verarbeitungskette, die im Folgenden beschrieben und in Abb. 3.5 darge- 
stellt wird. Die Kette ist in die drei thematischen Blöcke Datensatzanalyse, 
Training und Nachverarbeitung gegliedert. 

Für die Datensatzanalyse wird eine Vorverarbeitungsstrategie mit 
aSVST bestimmt. Anschließend wird für den vorverarbeiteten Datensatz 
eine Augmentierungsstrategie mittels FAARO ermittelt. 

Im Trainingsblock erfolgt entweder das Vor- und Haupttraining des 
gemäß Abschnitt 3.4.2 modifizierten CNN oder das trainierte quantisierte 
CNN wird über die Metaheuristik (s. Abschnitt 3.5.2) ermittelt. Letzteres 
beinhaltet ebenfalls im Initialisierungsschritt ein Vortraining. 

Im letzten Schritt erfolgt die Umwandlung auf ein 8-Bit CNN, indem zu- 
nächst die Skalierungsfaktoren mit den korrespondierenden Gewichten 
multipliziert werden, um konventionelle Faltungsschichten zu erhalten 
(Konvertierung). Anschließend wird das CNN optional mit Channel Pru- 
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Abbildung 3.5 Kategorische Unterteilung der Verarbeitungskette in datensatzspezifische 
Verarbeitung der Bilddaten (gelb), Training mit dem Quantisierungsverfahren (blau) und 
Nachverarbeitung des CNN (grün). 


ning verkleinert und die Gewichte werden feinabgestimmt. Zum Schluss 
werden die Gewichte auf die Quantisierungsstufen abgebildet. 
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effiziente CNNs 


In diesem Kapitel werden die Verfahren aus Kapitel 3 evaluiert. Die allge- 
meine Simulationsumgebung und die verwendeten Datensätze werden 
in Abschnitt4.1 beschrieben. Je nach Verfahren werden spezifischere 
Beschreibungen des Versuchsaufbaus in den jeweiligen Unterkapiteln 
gegeben. Anschließend wird in Abschnitt4.2 der Einfluss der Chargen- 
größe auf das Training mit Augmentierung analysiert. In Abschnitt 4.3 
werden die Verfahren, die das Training und den Datensatz betreffen, 
untersucht. Neben dem Einfluss der Chargengröße bei Augmentierung 
wird auch eine Vorverarbeitung und Augmentierung untersucht. Bei der 
Vorverarbeitung wird nach einer Kombination von Bildverbesserungs- 
verfahren gesucht. Hierfür werden einzelne Bildverbesserungsmethoden 
und Kombinationen davon bei der Verwendung einer Basisaugmentie- 
rung untersucht. Anschließend wird das erweiterte faster-AutoAugment- 
Verfahren untersucht. Hierbei wird nicht nur die erzielte Genauigkeit, 
sondern auch der Einfluss der Vorverarbeitung auf die gefundene Aug- 
mentierungsstrategie evaluiert. 

In Abschnitt 4.4 wird das Quantisierungsverfahren aus Abschnitt 3.4 
mit seinen Erweiterungen analysiert. Neben den erzielten Testgenau- 
igkeiten bei einer 8-Bit-Quantisierung werden auch kleinere Bitlängen 
betrachtet sowie deren Einfluss auf die Zielfunktion. Abschließend wird 
in Abschnitt 4.5 das heuristische Verfahren zur Ermittlung der datensatz- 
spezifischen CNN-Topologie aus Abschnitt 3.5 in Kombination mit den 
zuvor evaluierten Verfahren untersucht (vgl. Abschnitt 3.6). 
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4.1 Evaluationsumgebung 


Die in Kapitel 3 beschriebenen Methoden werden mithilfe der tensor- 
flow 2.0-Bibliothek in python implementiert. Für das Training wird 
eine GeForce RTX 2080 TI GPU verwendet. Falls nicht anders er- 
wähnt, werden VGG-Netze [145] verwendet, wobei nach der letzten 
Faltungsschicht statt der drei vollständig verbundenen Schichten eine 
(1 x 1)-Faltungsschicht und eine GAP-Schicht verwendet werden, was 
die Anzahl der Parameter des CNN erheblich reduziert. Im Folgenden 
wird weiter die Bezeichnung nach Sımonyan et al. [145] verwendet, auch 
wenn ein VGG-16-Netzwerk in dieser Arbeit nur 14 Schichten mit trai- 
nierbaren Parametern hat. Ferner wird eine L,-Regularisierung mit dem 
L,-Gewicht 10°? verwendet und ein kosinusartiger Abfall der Lernra- 
te, wobei die Initiallernrate 0,002 beträgt und ein ADAM-Optimierer 
verwendet wird. Bei den quantisierten CNNs wird zusätzlich eine L4- 
Regularisierung mit dem L,-Gewicht 1077 verwendet. Während durch 
die L,-Regularisierung Ausreißer bei den Gewichten vermieden werden, 
sorgt der L,-Regularisierer dafür, dass möglichst viele Gewichte dem 
Wert null zugeordnet werden, was unerwartete Effekte bei der Quanti- 
sierung von Gewichten |h,| < 4w/2 verringert. 

In diesem Kapitel werden vier Datensätze verwendet, die im Folgenden 
beschrieben werden. Die Bilder der Datensätze liegen als uint 8 vor. Um 
die Bilder als Eingabe für ein CNN zu verwenden, werden die Pixelwerte 
als Gleitkommazahl interpretiert, um den Wert 128 vermindert und 
mit 1/64 skaliert, sodass die Pixelwerte betragsmäßig auf den Wert 2 
begrenzt sind. Bei den Versuchen mit Quantisierung (s. Abschnitt 4.4) ist 
der Skalierungsfaktor 4q,4/256. 

Der CIFAR-10-Datensatz [91] besteht aus 60.000 RGB-Bildern der Grö- 
ße 32 x 32 Pixel und stellt eine Objektklassifikationsaufgabe dar, die als 
Benchmark für CNN-Methoden gilt. Der Datensatz ist in 50.000 Lern- 
und 10.000 Testbilder aufgeteilt. 

Der zweite Datensatz ist der SVHN-Datensatz (street view house num- 
bers) [120], der RGB-Bilder von Hausnummern von Google Street 
View enthält und bei dem Ziffern klassifiziert werden. Die Größe der Bil- 
der beträgt ebenfalls 32 x 32 Pixel. Der Testdatensatz hat eine Größe von 
26.032 Bilder. Um die gleiche Anzahl an Bildern pro Klasse zu erhalten, 
wird der Lerndatensatz um Bilder aus dem Extra-Datensatz vergrößert. 
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Insgesamt stehen 138.610 Trainingsbilder zur Verfügung. Nachteilig an 
diesem Datensatz ist, dass teilweise mehrere verschiedene Ziffern in 
einem Bild sichtbar sind und dass Ziffern in den Testdaten teilweise 
nicht zentriert sind. Nach [30] stellt der SVHN-Datensatz hinsichtlich der 
optimalen Augmentierungsstrategie einen zu CIFAR-10 orthogonalen 
Datensatz dar. 

Da industrielle Bildverarbeitungsaufgaben mitunter deutlich weniger 
komplex sind als die zuvor beschriebenen Datensätze, werden im Folgen- 
den zwei typische industrielle Datensätze beschrieben, bei denen Defekte 
auf metallischen Oberflächen klassifiziert werden. Der RSDDs-Datensatz 
(rail surface discrete defects) [47] enthält Aufnahmen von defektbehafteten 
Eisenbahnschienen. Die Bilder haben eine Auflösung von 55 x 1.250 
Pixeln und besitzen eine Maske der gleichen Größe, die die defektbe- 
hafteten Bereiche im Bild markiert. Die Grundwahrheit erfasst jedoch 
nur relativ große Fehler. Bilder mit kleinen Defekten werden daher als 
defektfrei annotiert. Dies ist auf das mehrstufige Annotierungsverfah- 
ren zurückzuführen, das versucht, Rauschen zu unterdrücken. Für den 
Zweck der Defekterkennung werden Quadrate der Größe 55 x 55 Pixel 
aus den Bildern ausgeschnitten und anhand der Grundwahrheit in die 
Klassen defektfrei und defektbehaftet eingeteilt. Dies ergibt einen Lerndaten- 
satz von 2.342 und einen Testdatensatz von 865 Bildern. Für die Eingabe 
in das CNN werden die Bilder auf 64 x 64 Pixel hochgetastet. 

Der Stahloberflächendefektdatensatz der North Eastern University (NEU) 
[147] zeigt sechs verschiedene Oberflächendefekte auf jeweils 300 Grau- 
wertbildern. Für die Eingabe in das CNN werden die Bilder auf 64 x 64 
Pixel heruntergetastet und als RGB-Bilder interpretiert. Es werden 1.260 
Bilder zum Lernen und 540 Bilder zum Testen verwendet. 

Beim RSDDs-Datensatz wird als Aktivierung der letzten Schicht eine 
Sigmoid-Funktion und als Zielfunktion die binäre Kreuzentropie verwen- 
det. Bei allen anderen Datensätzen wird eine softmax-Funktion und die 
kategorische Kreuzentropie verwendet. 
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4 Evaluation der Methoden fiir effiziente CNNs 


4.2 Einfluss der Chargengröße bei der 
Augmentierung 


In diesem Abschnitt wird der Einfluss der Chargengröße und des Gra- 
des der Augmentierung auf die Klassifikationsleistung eines CNN un- 
tersucht. Hierzu werden die Überlegungen aus Abschnitt 3.1 bzgl. des 
Trainings verwendet. Bei den Experimenten wird ein konvolutionäres 
neuronales Netz mit sieben Faltungsschichten und einer GAP-Schicht 
mithilfe des CIFAR-10-Datensatzes [91] untersucht. Die vier betrachteten 
Augmentierungsgrade sind keine Augmentierung, Basisaugmentierung 
(Spiegelung und Translation), Cutout nach [35] mit Basisaugmentierung 
und die AutoAugment-Pipeline für CIFAR-10 nach [30]. Die Lernphase 
besteht aus 100 Durchläufen. Für das Training mit fester Iterationszahl 
wird die Anzahl der Iterationen für eine Chargengröße von 32 berechnet, 
was bei CIFAR-10 1.563 Iterationen pro Durchlauf entspricht. 

Voruntersuchungen haben gezeigt, dass die optimale Chargengröße 
Nz, d.h. die Chargengröße mit niedrigstem Testfehler, stark von der ge- 
wählten Augmentierung und ggf. der Skalierung des Gradientenschritts 
abhängt (s. Abb. 4.1). Dies führt zu Inkonsistenzen beim Vergleich ver- 
schiedener Verfahren. Daher wird statt der konventionellen Definition 
eines Durchlaufs (s. Abschnitt 2.2.3) die Anzahl an Iterationen pro Durch- 
lauf konstant gehalten. Dies führt zu den Ergebnissen aus Abb. 4.2, die 
darauf schließen lassen, dass der Testfehler für größere Chargengrößen 
bei einem höheren Augmentierungsgrad sinkt, falls die Anzahl an Ite- 
rationen pro Durchlauf konstant ist. Umgekehrt führt dies dazu, dass 
sich bei einer stärkeren Augmentierung die optimale Chargengröße zu 
höheren Werten hin verschiebt. 

Sofern durch zu schwache Augmentierung keine Überanpassung auf- 
tritt, konvergiert das CNN während des Trainings schneller, was auf 
die weniger stark verrauschten Iterationsschritte bei großen Chargengrö- 
ßen zurückzuführen ist. Jedoch ist die Chargengröße einerseits durch 
die Trainingshardware und andererseits durch die Dauer des Trainings 
beschränkt, da die Augmentierung zum Flaschenhals bzgl. der Trainings- 
geschwindigkeit wird, falls eine Online-Augmentierung verwendet wird. 
Die Rechenzeit nimmt ab einer Chargengröße von 32 exponentiell zu: Bei 
der verwendeten Hardware entspricht eine Verachtfachung der Chargen- 
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Abbildung 4.1 Testfehler fiir CIFAR-10 über die Chargengröße Ng bei verschiedenen 
Augmentierungsgraden mit linearer (grau) und ohne (schwarz) Gradientenskalierung 
nach dem konventionellen Trainingsschema, d.h. mit variabler Anzahl an Iterationen pro 


Durchlauf (vgl. Abschnitt 2.2.3). Je nach Parameterwahl liegt die optimale Chargengröße 
zwischen 16 und 256. 


größe in etwa einer Verzehnfachung der Rechendauer. Dieser Effekt tritt 
bei einer Offline-Augmentierung nicht in dieser Form auf, jedoch legen 
weitere Versuche nahe, dass der Datensatz durch Augmentierung um 
den Faktor 64 vergrößert werden muss, damit die Offline-Augmentierung 
denselben Effekt wie eine Online-Augmentierung aufweist, was bei der 
Größe der vorliegenden Datensätze nicht sinnvoll ist. Ferner erhöht sich 
die Rechendauer durch den größeren Offline-Datensatz. Nähere Infor- 
mationen zu dieser Thematik sind im Anhang A.1 aufgeführt. Die Er- 
gebnisse deuten darauf hin, dass Online-Augmentierung nicht nur die 


Testgenauigkeit nach dem Training erhöht, sondern auch das Training 
beschleunigt. 
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Abbildung 4.2 Testfehler für CIFAR-10 [91] über die Chargengröße Ng bei verschiedenen 
Augmentierungsgraden mit konstanter Anzahl an Iterationen pro Durchlauf. 


Augmentierung hat einen Einfluss auf die Zielfunktion während des 
Trainingsvorgangs und auf das gefundene Optimum nach dem Training, 
nicht nur, weil die Zielfunktion von den Eingangsdaten X abhängt, son- 
dern auch, weil die augmentierten Bilddaten die Gewichte H des CNN 
beeinflussen. In Abb. 4.3 ist die Zielfunktion £ des neuronalen Netzes im 
Optimum für den Lern- und Testdatensatz nach dem Verfahren aus [100] 
visualisiert. Das Training wurde mit konstanter Anzahl an Iterationen 
mit einer Chargengröße von Ng = 128 durchgeführt. Je stärker die Aug- 
mentierung, desto schwieriger wird die Lernaufgabe, was in Abb. 4.3a 
zur Folge hat, dass die Zielfunktionen bei stärkerer Augmentierung zu 
höheren Werten verschoben wird. Die Zielfunktion bzgl. des Lerndaten- 
satzes hat die geringsten Werte und gleicht einer Ebene, was ein Zeichen 
für Überanpassung ist und ein Hindernis bei der Optimierung darstellt, 
da kein ausgeprägtes Minimum vorhanden ist. Die Reihenfolge der Ziel- 
funktionen bei Testdaten ist umgekehrt. Dies weist auf eine geringere 
Generalisierungslücke T bei einer besser geeigneten Augmentierung hin. 

Insgesamt ist die Verwendung einer festen Anzahl an Iterationen vor- 
teilhaft, da sich die optimale Chargengröße Ng aus der Hardwarelimi- 
tierung ergibt und bei hinreichend großem Augmentierungsgrad ab 
dem Wert 128 einen verschwindend geringen Einfluss hat. Daher wird 
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ct 


h, 
(a) Zielfunktion auf Lerndaten £(X,;h). (b) Zielfunktion auf Testdaten £ (Ær; h). 


Abbildung 4.3 Zielfunktion für verschiedene Augmentierungsgrade (schwarz: keine 
Augmentierung, grau: Basisaugmentierung, blau: AutoAugment) für CIFAR-10. 


im Folgenden die Chargengröße zu 128 gewählt. Ferner wird Online- 
Augmentierung, d.h. Bilddatenaugmentierung während des Trainings, 
verwendet. 


4.3 Vorverarbeitungs- und 
Augmentierungsverfahren 


Im Folgenden werden die Methoden fiir die Konstruktion invarianter 
Merkmale untersucht. In Abschnitt 4.3.1 wird das Vorverarbeitungsver- 
fahren aus Abschnitt 3.2.2 hinsichtlich der Qualität der Bilder und der 
resultierenden Testgenauigkeit untersucht. Die Suche nach der optimalen 
Augmentierungsstrategie T,,,, sowie der Einfluss von Bildverbesserung 
als Vorverarbeitungsschritt darauf wird anschließend in Abschnitt 4.3.2 
thematisiert. 
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4.3.1 Vorverarbeitung 


Neben den Versuchen aus [188], die die Maximalparameterbestimmung, 
Voruntersuchungen, die Analyse der Bilder und der erzielten Genauig- 
keit untersuchen, werden in diesem Abschnitt auch Approximationen 
des Vorverarbeitungsverfahrens und das aSVST-Verfahren betrachtet. 
Dagegen wird die in [188] betrachtete Fensterung in dieser Arbeit nicht 
berticksichtigt, da die Ergebnisse keine wesentlichen Verbesserungen 
mit sich bringen und schwer interpretierbar sind. 

Sowohl fiir das Training zur Bestimmung der Vorverarbeitungsge- 
wichte yy und y als auch für das finale Training wird ein VGG-16- 
Netz verwendet. Ersteres wurde auf ImageNet [32] vortrainiert. Beide 
Lernphasen sind 50 Durchlaufe lang. Es wird eine Basisaugmentierung 
verwendet, die aus Spiegelung (außer bei SVHN), einem zufälligen Aus- 
schneiden eines Bildausschnittes und Cutout (nicht bei RSDDs und NEU) 
besteht. In diesem Abschnitt wird zunächst nach geeigneten Parameter 
der einzelnen Bildverbesserungsverfahren gesucht. Anschließend wer- 
den in Vorversuchen die Verfahren einzeln untersucht. Danach werden 
die durch das aSV-Verfahren verarbeiteten Bilder analysiert und dann 
wird die Auswirkung der Verfahren auf die Testgenauigkeit untersucht. 
Im letzten Teil wird das aSVST-Verfahren betrachtet. 


Parameter der Bildverbesserungsverfahren 
Die für die Vorverarbeitung verwendeten Bildverbesserungsverfahren 
unterscheiden sich mitunter stark bezüglich ihrer Parameter. Im Folgen- 
den werden Versuche durchgeführt, um die Maximalparameter av** aus 
Gl. (3.2) für jedes Verfahren mithilfe des CIFAR-10-Datensatzes zu bestim- 
men. Dies geschieht unter der Annahme, dass gut geeignete Parameter 
die erzielte Genauigkeit am stärksten verbessern bzw. dass das zu al}?* 
gehörende Verfahren i einen höheren Anteil Oy; besitzt. Letzteres rührt 
daher, dass der positive Einfluss eines Verfahrens genau dann am größten 
ist. Für die parameterfreien Verfahren der Histogrammspreizung und 
der Histogrammegalisierung sind keine Parameter zu ermitteln. Soweit 
möglich, werden Standardparameter verwendet. 

Ein Großteil der verwendeten Verfahren hat die Größe eines Filterkerns 
und die Standardabweichung einer Gaußfunktion Gays, als Parameter. 
Da diese mit der Bildgröße korrespondieren, werden für alle Verfahren 
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Abbildung 4.4 Testgenauigkeit über der Standardabweichung aGauss des Gaußfilters mit 
AutoAugment nach [30]. Für die Basisgenauigkeit wird keine Vorverarbeitung verwendet. 
Für das Training wurde ein WideResNet verwendet. 


außer der Homogenisierung die gleichen Werte verwendet, deren Er- 
mittlung im Folgenden beschrieben wird. Hierfür wird das Verfahren 
für ungerade Filterkerngrößen von 3 bis 15 angewandt, um die besten 
Filterkerne zu bestimmen. Für die verwendeten Datensätze mit Bildern 
erweisen sich Kerne der Größe 3 x 3 als optimal. Für die Homogenisie- 
rung wird die Filtergröße 21 x 21 verwendet. Die Standardabweichung 
der Bildverbesserungsverfahren, die ein Gaußfilter beinhalten, wurde für 
Ganzzahlen von 1 bis 9 getestet (s. Abb. 4.4). Die optimale Standardab- 
weichung ist 3 und für die Homogenisierung beträgt diese 9. Bei diesem 
Versuch ändert sich die Verteilung der Gewichte 8y ; kaum. 

Für die Bildverschärfung und das homomorphe Filter ist ein dritter 
Parameter apg bzw. ay; Zu bestimmen, der einen erheblichen Einfluss 
auf die Intensität des Filters hat. Das Ergebnis ist in Abb. 4.5 illustriert. 
Das Maximum des Anteils korrespondiert hier jeweils mit einem loka- 
len Maximum der Genauigkeit. Somit ergibt sich für die homomorphe 
Filterung ein geeigneter Wert für den Parameter von 0,2 und für die 
Bildverschärfung von 0,6. 


Vorversuche 

Zunächst werden die verwendeten Bildverbesserungsverfahren einzeln 
an den Datensätzen aus Abschnitt 4.1 getestet. Hierzu werden die Da- 
tensätze mit den jeweiligen Bildverbesserungsverfahren vorverarbeitet 
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Abbildung 4.5 Testgenauigkeit (schwarze Linie) und Anteil von Bildverschärfung (grün) 
und homomorpher Filterung (blau) an der Vorverarbeitung bei verschiedenen Werten von 
ps bzw. ayp. Für das Training wurde ein WideResNet verwendet. 


und anschließend 50 Durchläufe mit VGG-16 trainiert. Hierbei wird eine 
Basisaugmentierung aus Spiegelung (außer bei SVHN), einem zufälligen 
Ausschneiden eines Bildausschnittes und Cutout (nicht bei RSDDs und 
NEU) verwendet. Die Ergebnisse sind in Tabelle 4.1 dargestellt. 

Die Ergebnisse zeigen, dass der Klassifikator sehr sensibel gegenüber 
ungeeigneten Bildverbesserungsverfahren ist, d.h. eine schlechte Wahl 
kann zu dramatischen Verschlechterungen der Genauigkeiten führen, 
während eine gute Wahl nur geringe Verbesserungen mit sich bringt. 
So führt nur die homomorphe Filterung bei CIFAR-10 zu einer Verbes- 
serung der Klassifikationsgenauigkeit. Verfahren mit einem Tiefpass- 
charakter (RF, MF, GF) führen zu einer Verschlechterung von 2 bis 4 
Prozentpunkten. Die größte Verschlechterung ergibt sich für die Homo- 
genisierung erster und zweiter Ordnung. Ein ähnliches Verhalten ist für 
den NEU-Datensatz feststellbar. Hier bringt nur die Bildverschärfung 


4.3 Vorverarbeitungs- und Augmentierungsverfahren 


Tabelle 4.1 Veränderung der Testgenauigkeit in Prozentpunkten der einzelnen Bildver- 
besserungsverfahren gegenüber dem Originaldatensatz. Verfahren, die die Genauigkeit 
verbessern, sind fett gedruckt. 


CIFAR-10 SVHN NEU RSDDs 
HE | —1,70 0,07 -0,72 +0,39 
Hs | —0,01 +0,26 -0,17 —0,25 
CL | 212 -058 -043 -0,81 
HF | +0,03 +0,08 —0,04 +0,04 
BS | -0,31 +0,15 +014 0,32 
H1 | -526  -0,41 -1,09 +0,01 
H2 | -6023 -11,65 —8,41 —20,18 
RF | -272 +0,17 -0,70 —0,19 
MF | -3,64 +012 —0,65 —0,20 
GF | —2,83 +015 -0,57 —0,27 
MH | -290 1,04 -4,38 —0,58 
BF | -139 40,11 —0,56 —0,30 


eine Verbesserung. Bis auf H1, H2 und MH liegt die Verschlechterung 
der anderen Verfahren aber unter einem Prozentpunkt. 

Beim SVHN-Datensatz führt eine Vielzahl unterschiedlicher Vorver- 
arbeitungsverfahren zu einer Verbesserung. Auch hier führen die Ho- 
mogenisierungen zu einer Verschlechterung. Dagegen hat beim RSDDs- 
Datensatz lediglich die Histogrammegalisierung einen merklich positi- 
ven Einfluss auf das Ergebnis. Während die Homogenisierung zweiter 
Ordnung zu einem hohen Genauigkeitsverlust führt, hat die Homogeni- 
sierung erster Ordnung quasi keinen Einfluss auf die Genauigkeit. 

Obwohl der MH-Operator nur ein Kantenbild ausgibt, ist die Ver- 
schlechterung durch dieses Verfahren bis auf beim NEU-Datensatz über- 
raschend gering, weil Schriftzeichen bzw. Ziffern (SVHN), Objekte (CIFAR- 
10) und Defekte (RSDDs) noch durch ihre Kontur erkannt werden können. 
Dies ist aber bei Texturen (NEU) schwieriger. 

Dieser Vorversuch zeigt insgesamt, dass die Wahl der Vorverarbeitungs- 
und Bildverbesserungsschritte einen entscheidenden Einfluss auf die Ge- 
nauigkeit des Klassifikators hat, aber auch, dass die Wahl einer gewissen 
Sorgfalt bedarf und Expertenwissen bzw. zeitaufwändige Tests voraus- 
setzt. Auch zeigt der Versuch das mögliche Potential von Vorverarbeitung 
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insbesondere, wenn Abstufungen der Starke oder Kombinationen von 
einzelnen Methoden möglich sind. 


Analyse der gewonnenen Bilder 

Das aSV-Verfahren wird jeweils dreimal auf jedem Datensatz wiederholt. 
Die gefundene Vorverarbeitung ist für die Datensätze NEU, CIFAR-10 
und SVHN reproduzierbar. Daher wird für diese Datensätze der Mittel- 
wert der Verfahren angegeben. Für RSDDs ergeben sich zwei verschieden- 
artige Lösungen. Die quantitativen Ergebnisse sind in Tab. 4.2 dargestellt. 
Beispiele für die erzeugten Bilder finden sich im Anhang (s. Abb.A.3). 


Tabelle 4.2 Die Tabelle zeigt die sich ergebenden Werte für 100-9, ; und 100- yy,; des aSV- 
Verfahrens. Eine Zahl in Klammern indiziert, dass aufgrund eines Mischfaktors yy ; = 0 
das Originalbild verwendet wird. Zweistellige Anteile in Prozent sind fett gedruckt. 


CIFAR 10 SVHN NEU RSDDs (a) | RSDDs (b) 
Oy Wi Oy i Wi Oy i Wii Oy Wii Oy Wii 
- 0 - 1 - 9 - 1 - 10 - 
HE 0 100 0 100 2 20 15 53 0 0 
HS 0 64 0 17 (1 0 0 33 0 99 
CL 0 0 1 100 8 49 (1) 0 0 0 
HF 0 100 0 0 (1 0 0 28 0 84 
BS 93 100 0 0 51 83 (1) 0 0 0 
Hl 7 100 | 47 100 | 20 57 16 82 41 100 
H2 0 100 | 3 100 | (1 0 1 16 0 0 
RF 0 0 0 0 (1 0 14 94 0 100 
MF 0 0 0 0 (1 0 33 94 0 99 
GF 0 0 0 0 (1 0 3 75 16 100 
MH 0 0 18 100 | (2 0 10 85 0 100 
BF 0 100 0 0 (2 0 5 79 33 100 


Beim CIFAR-10-Datensatz hat das aSV-Verfahren eine Kombination 
aus ca. 93% Bildverschärfung und 7% Homogenisierung ersten Grades 
ermittelt. Einerseits ist dieses Ergebnis aufgrund des verschlechternden 
Einflusses dieser beiden Methoden (s. Tab. 4.1) unerwartet. Andererseits 
weisen die verarbeiteten Bilder (s. Abb. A.3 im Anhang) einen deutlich hö- 
heren optischen Schärfeeindruck auf. So sind Kanten wie bspw. der blaue 
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Streifen des Polizeiautos, Hintergrundgrundstrukturen und Objektgren- 
zen besser erkennbar. Aufgrund der Homogenisierung ist die Sättigung 
geringer. Die Bilder des approximierten aSV-Verfahrens unterscheiden 
sich nicht von denen des aSV-Verfahrens, da hier keine Parameter appro- 
ximiert werden. 

Der Einfluss der Vorverarbeitung bei SVHN ist deutlicher. Die drei do- 
minierenden Bildverbesserungsmethoden sind Homogenisierung erster 
(47%) und zweiter (33%) Ordnung sowie der Marr-Hildreth-Operator 
(18%). Diese Verfahren sorgen dafür, dass die Bilder einen ähnlichen Kon- 
trast und eine ähnliche Helligkeit haben und die Kanten hervorgehoben 
werden. Die Bilder verlieren ferner stark an Sättigung bzw. an Farbinfor- 
mationen, was aber nicht den Informationsgehalt der Bilder reduziert, 
da die relevante Information in den Konturen steckt. Die Reduktion 
der Farbinformation sowie die Kontrast- und Helligkeitsanpassung sind 
hier gemäß [137] als normalisierender Weg der Konstruktion invarianter 
Merkmale interpretierbar. Auch hier ist kein nennenswerter Unterschied 
zwischen approximierten und nicht approximierten Bildern feststellbar. 

Das aSV-Verfahren findet für den NEU-Datensatz ähnlich wie bei 
CIFAR-10 Bildverschärfung und Homogenisierung als dominante Vorver- 
arbeitungsschritte. Ihre Anteile mit 51% (BS) und 20% (Hl) unterscheiden 
sich aber deutlich. Darüber hinaus existiert ein nicht irrelevanter Anteil 
am Originalbild (9%) und an CLAHE (8%). Diese Verfahren reduzieren 
die in diesem Datensatz vorliegenden Beleuchtungsschwankungen mit- 
unter erheblich und erhöhen den Kontrast bzw. verstärken die Kanten 
im Bild. Verglichen mit dem Originalbild sind die Texturen der Defekte 
der vorverarbeiteten Bilder in Abb. A.3 wesentlich deutlicher zu erken- 
nen. Die approximierten Bilder sind mit den nicht approximierten quasi 
identisch, da mit BS, H1 und CL alle relevanten Operationen verwendet 
werden (das Originalbild zählt nicht als eine eigene Operation bei der 
Approximierung). 

Beim RSDDs-Datensatz werden zwei verschiedene Kombinationen 
gefunden, die im Folgenden getrennt betrachtet werden. In beiden Fäl- 
len versucht das aSV-Verfahren, die Bilder zu homogenisieren (Hl), zu 
glätten und gleichzeitig die Kanten zu erhalten. Im Fall (a), welcher 
nicht als Bild in Abb. A.3 dargestellt ist, wird eine Glättung durch das 
Rechteckfilter (14%), das Medianfilter (33%), das Gaufsfilter (3%) und das 
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Bilateralfilter (5%) erreicht. Die Kanten werden durch den Marr-Hildreth- 
Operator (10%) und das Bilateralfilter (5%) verstärkt. Die Approximation 
ähnelt dem Originalbild stärker, da ein Anteil von 35% der Operatio- 
nen an das Original fällt. Im Fall (b) dagegen überwiegen die Verfahren 
Homogenisierung ersten Grades (41%), Gaußfilterung (16%) und Bilate- 
ralfilter (33%). Ein Problem des RSDDs-Datensatzes ist, dass kleine, meist 
punktförmige Defekte nicht als Fehler annotiert worden sind. Die gefun- 
dene Vorverarbeitung ist darauf ausgerichtet, kleine Fehler durch einen 
Tiefpass zu verschleiern und gleichzeitig die Kanten zu erhalten, damit 
größere Defekte erkannt werden können, bei gleichzeitiger Erhöhung 
des Kontrastes und gleichmäßigerer Beleuchtung. 

Im Folgenden werden die Ergebnisse des aSVST-Verfahrens beschrie- 
ben. Die Zusammensetzungen sind in Tab. 4.3 aufgeführt. Beispiele der 
gefundenen Bilder sind in Abb. A.3 im Anhang illustriert. 


Tabelle 4.3 Die Tabelle zeigt die sich ergebenden Werte für 100 - 0y ; und ay ; des aSVST- 
Verfahrens. Zweistellige Anteile in Prozent sind fett gedruckt. Irrelevante Werte für ay ; 
werden in der Tabelle weggelassen. 


CIFAR 10 SVHN NEU RSDDs 
Oy i ay i Oy i ay i Oy i ay i Oy i ay i 
- 0 - 0 - 0 - 0 - 
HE 0 - 4 - 0 - 5 - 
HS 0 - 0 - 0 - 34 - 
CL 0 - 0 - 63 1,62 0 - 
HF 0 - 0 - 0 - 3 1,84 
BS 91 6,00 0 - 31 3,15 0 - 
H1 9 3,71 | 57 6,92 6 1,82 | 14 4,07 
H2 0 - 11 2,26 0 - 1 1,46 
RF 0 - 0 - 0 - 0 - 
MF 0 - 0 - 0 - 25 - 
GF 0 - 0 - 0 - 0 - 
MH 0 - 28 - 0 - 16 - 
BF 0 - 0 - 0 - 2 3,58 


Insgesamt zeigen die Ergebnisse der drei Wiederholungen pro Da- 
tensatz jeweils eine hohe Reproduzierbarkeit. Lediglich die Stärkepa- 
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rameter ay ; schwanken etwas. Für CIFAR-10 ergibt sich eine ähnliche 
Zusammensetzung wie beim aSV-Verfahren, bei der Bildverscharfung 
das dominante Verfahren ist und ein kleiner Anteil von Homogenisie- 
rung ersten Grades vorhanden ist. Infolgedessen unterscheiden sich die 
produzierten Bilder auch fiir die approximative Variante kaum von den 
Bildern des aSV-Verfahrens. 

Beim SVHN-Datensatz sind aSV und aSVST ebenfalls sehr ähnlich. 
In beiden Varianten sind Homogenisierung ersten und zweiten Grades 
sowie der Marr-Hildreth-Operator die dominanten Verfahren. Lediglich 
die Verteilung der Anteile unterscheidet sich, was zu etwas höherem 
Bildrauschen und einer geringen Farbsättigung führt. Durch die Appro- 
ximation ändern sich die verarbeiteten Bilder kaum. 

Das aSVST-Verfahren verhält sich beim NEU-Datensatz ähnlich wie 
beim SVHN-Datensatz. Die relevanten Verfahren sind CLAHE, Bild- 
verschärfung und Homogenisierung ersten Grades. Hier unterscheiden 
sich jedoch die Anteile noch deutlicher, was sich vor allem in einem 
Anteil von CLAHE von ca. 63% (aSV: 8%) äußert. Hier zeigt sich der 
Vorteil des Straight-Through-Schätzers, der eine Kachelgittergröße von 3 
findet, die sich deutlich von der Kachelgittergröße 8 des aSV-Verfahrens 
unterscheidet. Dies führt dazu, dass CLAHE vom aSVST-Verfahren als 
deutlich geeigneter für die Vorverarbeitung bewertet wird. Im Vergleich 
zu aSV haben die erzeugten Bilder eine gleichmäßigere Beleuchtung und 
die Texturen sind ausgeprägter. Jedoch wirken diese auch verrauschter. 
Durch die Approximation ändern sich die verarbeiteten Bilder ebenfalls 
kaum. 

Die gefundene Vorverarbeitungsstrategie für RSDDs von aSVST äh- 
nelt der Strategie (a) des RSDDs-Verfahrens. Die erzeugten Bilder beider 
Verfahren sind nahezu identisch. Die Zusammensetzung unterscheidet 
sich darin, dass statt einer Histogrammegalisierung eine Histogramm- 
spreizung und keine Rechteckfilterung verwendet wird. Es handelt sich 
im Wesentlichen um eine Substitution ähnlicher Verfahren. Die approxi- 
mierten Bilder sind hier unschärfer. 

Insgesamt führt die Verwendung eines Straight-Through-Schätzers da- 
zu, dass durch die Gradientenbildung die Parameter besser an den Da- 
tensatz angepasst werden. Dies führt dazu, dass sich einzelne Verfahren 
besser für einen Datensatz eignen als beim aSV-Verfahren und dass sich 
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die Anteile innerhalb der Vorverarbeitungsstrategien verschieben oder 
ahnliche Verfahren miteinander substituiert werden. 


Quantitative Analyse 

Im Folgenden werden die Auswirkungen der Vorverarbeitung auf die 
erzielten Testgenauigkeiten nach dem finalen Training des CNN beschrie- 
ben. Die Ergebnisse sind in Tab. 4.4 gegeben. 


Tabelle 4.4 Erzielte Genauigkeit der Originaldatensätze und der verschiedenen vorverar- 
beiteten Datensätze. 


| Original aSV aSV(appr) aSVST aSVST (appr.) 


CIFAR-10 93,90 94,13 94,15 94,35 94,38 
SVHN 97,23 97,21 97,20 97,26 97,25 
NEU 98,93 99,87 99,82 99,76 99,81 
RSDDs 98,88 99,07 99,00 98,98 99,01 


Für alle Datensätze kann eine Verbesserung gegenüber dem Original- 
datensatz festgestellt werden. Die erzielte Genauigkeit der approximier- 
ten Variante unterscheidet sich von der nicht approximierten Variante nur 
unwesentlich. Bei den weniger komplexen Datensätzen (NEU, RSDDs) 
ist das aSV leicht besser, während bei den komplexeren Datensätzen das 
aSVST-Verfahren besser geeignet ist. 

Die Verbesserung für den NEU-Datensatz sticht besonders hervor, da 
der Testfehler von 1,07% auf 0,26 bis 0,13% gesenkt wird. Rein optisch 
verbessert sich der RSDDs-Datensatz durch die Vorverarbeitung zwar 
deutlich, aber aufgrund der teilweise inkonsistenten Annotierung (s. 
Abschnitt 4.1) kann das Verfahren keine derart große Verbesserung der 
Genauigkeit erreichen. 

Beim SVHN-Datensatz dagegen liegen keine deutlichen Verbesserun- 
gen vor. Die erzielte Genauigkeit liegt unter der der Vorversuche. Eine 
Rolle hierbei spielt einerseits, dass durch den Unterschied zwischen 
Lern- und Testdaten (s. Abschnitt 4.1) keine großen Verbesserungen zu 
erwarten sind. Andererseits wurde das VGG-16-Netz, das in der ersten 
Trainingsphase verwendet wird, auf ImageNet [32] vortrainiert. Dieser 
Datensatz ist am ehesten mit CIFAR-10 zu vergleichen. Aufgrund Or- 
thogonalität zu derartigen Datensätzen (vgl. [30]) und der Komplexität 
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bzgl. der Größe und den Variationen von SVHN ist die Wahl der ImageN- 
et-Gewichte nicht optimal. Infolgedessen sucht das aSV-Verfahren nach 
einer möglichst einfachen Repräsentation der Bilddaten, um mithilfe 
der ImageNet-Merkmale des CNN den SVHN-Datensatz bestmöglich zu 
klassifizieren. Die suboptimale Wahl der vortrainierten Gewichte haben 
bei NEU und RSDDs einen geringeren Einfluss, da die beiden Datensätze 
eine deutlich geringere Komplexität aufweisen, weswegen diese beiden 
Datensätze mit allgemeineren CNN-Merkmalen klassifizierbar sind. 


Fazit 

Das vorgestellte Verfahren sucht mithilfe eines vortrainierten CNN nach 
einer gut geeigneten Vorverarbeitungsstrategie, um die Genauigkeit eines 
CNN-Klassifikators in einer zweiten Trainingsphase zu verbessern. Das 
Verfahren benötigt kein Expertenwissen und ist verglichen mit einer 
brute-force-Suche deutlich schneller. Das Verfahren ist in der Lage, die 
Klassifizierbarkeit des Datensatzes zu erhöhen - sogar dann, wenn das 
Verfahren approximiert wird. Interessanterweise sind die gefundenen 
Bildverbesserungsverfahren mitunter andere als jene, welche einzeln in 
den Vorversuchen die besten Ergebnisse liefern. 

Während das aSV-Verfahren für die weniger komplexen industriellen 
Datensätze ausreichend ist, kann durch die Erweiterung mittels eines 
Straight-Through-Schätzers die Genauigkeit bei komplexeren Datensätzen 
stärker verbessert werden. Dieser Schätzer führt dazu, dass sich die 
Anteile der Bildverbesserungsverfahren in der Vorverarbeitungsstrategie 
ändern bzw. die Verfahren mit ähnlichen anderen Verfahren substituiert 
werden. Außerdem ist für aSVST keine Hyperparametersuche nach ay 
erforderlich. Ferner sind die Ergebnisse mit Straight-Through-Schätzer 
konsistenter. Daher wird im Folgenden das aSVST-Verfahren verwendet. 


4.3.2 Augmentierung 


Im Folgenden wird das FAA-Verfahren und seine Erweiterungen FAAR 
und FAARO aus Abschnitt 3.3 sowohl für die Originaldatensätze als auch 
für die vorverarbeiteten Datensätze (vgl. Abschnitt 4.3.1) evaluiert. Hier- 
für wird eine frei zugängliche pytorch-Implementierung für python, 
die entsprechend erweitert wurde, mit den Standardparametern verwen- 
det. Für jeden Datensatz wird die GAN-Struktur des FAA-Verfahrens 
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mit 20 Durchläufen trainiert. Jedes Experiment wird dreimal wiederholt. 
Anschließend wird für die quantitative Analyse mit der gefundenen 
Augmentierungsstrategie ein VGG-16-Netz für 100 Durchläufe trainiert. 
Hierfür wird wie in den Experimenten zuvor wieder eine tensorflow- 
Umgebung verwendet. Eine Augmentierungsstrategie Taug besteht in 
dieser Arbeit aus zehn Unterstrategien mit jeweils zwei Operationen. 


Quantitative Analyse 

Die erzielten Genauigkeiten für die Augmentierungsverfahren bei den 
Originaldatensätzen und den verschiedenen vorverarbeiteten Datensät- 
zen sind in Tab.4.5 aufgeführt. 


Tabelle 4.5 Erzielte Testgenauigkeit der Augmentierungsverfahren (Augm.) bei den Origi- 
naldatensätzen und den vorverarbeiteten Datensätzen (aSVST). Die Basis-Augmentierung 
enthält Spiegelung und Cutout. 


Augm. VV. | CIFAR-10 SVHN NEU RSDDs 
Basis 93,90 9729 98,93 98,88 
FAA eine 93,50 97,31 98,72 98,59 
FAAR 94,60 97,34 98,80 98,94 
FAARO 95,08 97,44 99,08 99,16 
Basis 94,31 97,26 99,74 98,93 
FAA 94,70 97,28 98,33 99,11 
HAAR. || Sees 94,73 97,37 99,26 99,32 
FAARO 95,23 97,42 99,02 99,24 


Beim CIFAR-10-, SVHN- und RSDDs-Datensatz tendieren CNNs, de- 
ren Training mit starker modifizierten FAA-Verfahren oder Vorverar- 
beitung durchgeführt wurde, zu einer besseren Klassifikationsleistung. 
Dies entspricht einerseits den Ergebnissen aus Abschnitt4.3.1 und an- 
dererseits den Erwartungen an die Modifikationen des FAA-Verfahrens 
(s. Abschnitt 3.3.2). Somit führt eine gut geeignete Vorverarbeitung und 
Augmentierung bei CIFAR-10 gleichermaßen zu einer Verbesserung der 
Genauigkeit. 

Beim SVHN-Datensatz ist die Auswirkung der Vorverarbeitung auch 
bei unterschiedlich modifizierter Augmentierung gering und spielt eine 
untergeordnete Rolle. Durch Augmentierung kann eine geringfügige 
Verbesserung der Genauigkeit von 0,15 Prozentpunkten erreicht werden. 
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Der RSDDs-Datensatz verhält sich ähnlich wie der CIFAR-10-Datensatz. 
Jedoch erreicht das FAAR-Verfahren bei Vorverarbeitung leicht bessere 
Ergebnisse als das FAARO-Verfahren. 

Beim NEU-Datensatz verschlechtert sich die Genauigkeit bei Aug- 
mentierung. Lediglich der Originaldatensatz mit FAARO führt zu einer 
Verbesserung. Gleichzeitig können Fehlklassifikationen durch die aSVST- 
Vorverar-beitung um rund 76% reduziert werden. Hier zeigen sich die 
Schwächen des FAA-Verfahrens. 

Die Augmentierung wahrend des FAA-Verfahrens unterscheidet sich 
von der gefundenen Augmentierungsstrategie. Dies liegt daran, dass 
während des Trainings eine gewichtete Summe aus allen zur Verfügung 
stehenden Operationen O, „„ gebildet wird und die Unterstrategien nach 
dem Training aus einer Stichprobe entnommen werden, wobei die Wahr- 
scheinlichkeiten den Gewichten der jeweiligen Operation entsprechen. 
Dies kann zu suboptimalen Strategien führen. Ein weiterer Grund ist 
speziell beim NEU-Datensatz die hohe Ahnlichkeit einiger Klassen, wah- 
rend innerhalb der Klassen eine mitunter große Varianz vorherrscht. Bei 
RSDDs liegt ein ähnliches Problem vor, da teilweise Defekte nicht als 
solche annotiert sind. Beim Augmentieren können durch bestimmte Ope- 
rationen klassenspezifische Charakteristika nivelliert werden. Ferner tritt 
bei allen Varianten des NEU-Datensatzes Überanpassung auf, weshalb 
sich durch die Augmentierung die Generalisierungslücke T vergrößert. 


Analyse der gefundenen Strategien 

Da die Unterstrategien einer Stichprobe aus einer verallgemeinerten 
Ber-noulli-Verteilung entstammen, unterscheiden sich die gefundenen 
Augmentierungsstrategien bei jedem Durchlauf geringfügig. Um die 
gefundenen Augmentierungsstrategien besser unterscheiden zu können, 
werden die Operationen in fünf verschiedenen Kategorien klassifiziert, 
welche grob der Einteilung aus Abschnitt 3.3 entsprechen. Diese sind 
Koordinatentransformationen (Scherung, Translation, Rotation, Spiege- 
lung, zufälliger Zuschnitt), Farbmanipulation (Invertierung, Solarisation, 
Kontrast-, Helligkeits-, Sättigungsmanipulation, Posterisation, Farbver- 
schiebung), normalisierende Verfahren (Autokontrast, Histogrammegali- 
sierung), Schärfe (Bildverschärfung, Gaußfilterung) und das Hinzufügen 
von Rauschen (Impulsrauschen, normalverteiltes Rauschen, gleichver- 
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teiltes Rauschen). Insgesamt werden in den drei Wiederholungen pro 
Datensatz 60 Operationen ermittelt. Untersucht wird nur das FAARO- 
Verfahren. Die Ergebnisse sind in Tab. 4.6 zusammengefasst. 


Tabelle 4.6 Anzahl der gefundenen Operationen unterteilt in Kategorien für das FAARO- 
Verfahren bei den Originaldatensätzen und den vorverarbeiteten Datensätzen (aSVST). 
Die Ergebnisse in Klammern beim NEU-Datensatz beziehen sich auf ein Experiment ohne 
Operationen der Normalisierung und ohne Invertierung. Die Kategorien sind Koordinaten- 
transformationen (affine Transformation, Spiegelung etc.), Farbmanipulationen (Helligkeit, 
Sättigung, Kontrast etc.), normalisierende parameterfreie Verfahren wie Histogrammegali- 
sierung, das Hinzufügen von Rauschen und Schärfeoperationen (Gaußfilterung, Bildver- 
schärfung). 


Kategorie VV. CIFAR-10 SVHN NEU RSDDs 
Koordinaten 18 20 33 23 
Farbe 16 11 16 16 
Normalisierung | Original 8 26 2 15 
Rauschen 2 0 3 3 
Schärfe 16 3 6 3 
Koordinaten 18 39 20 (26) 21 
Farbe 13 13 13 (23) 19 
Normalisierung | aSVST 5 5 20 (-) 0 
Rauschen 14 2 3 (8) 7 
Schärfe 10 1 4 (3) 13 


Interessant ist hierbei der Vergleich zwischen dem Originaldatensatz 
und den mit aSVST vorverarbeiteten Daten. Beim CIFAR-10-Datensatz 
sinken die Anteile von Farbmanipulation, Normalisierung und Schar- 
fe zu Gunsten von Rauschen durch die aSVST-Vorverarbeitung. Diese 
Veränderung ist auf die hohen Anteile von Bildverschärfung und Ho- 
mogenisierung zurtickzuftihren, die die Bilder hinsichtlich visuellem 
Schärfeeindruck, Farbe, Kontrast und Helligkeit teilweise normalisieren. 
Durch die Bildverschärfung wird Rauschen verstärkt, daher versucht das 
FAARO-Verfahren, dagegen Invarianzen aufzubauen. Dies führt dazu, 
dass normal- und gleichverteiltes Rauschen sowie die Gaußfilterung, die 
Rauschen abmildert, einen hohen Anteil an der Augmentierungsstrate- 
gie haben, was insgesamt zu der höchsten erreichten Genauigkeit für 
CIFAR-10 führt (vgl. Tab. 4.5). 
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Der Einfluss auf die Genauigkeit bei SVHN durch aSVST ist gering. 
Dennoch ändert sich bei der Verwendung von aSVST 7,,,, erheblich. Am 
auffalligsten ist die Verschiebung von normalisierenden Operationen hin 
zu Koordinatentransformationen aufgrund der starken Homogenisie- 
rung bei aSVST. Dies weist darauf hin, dass nach der Verarbeitung mit 
aSVST eine deutlich geringe Notwendigkeit fiir normalisierende Ope- 
rationen besteht und Invarianten bzgl. affinen Transformationen in den 
Fokus rücken. 

Beim RSDDs-Datensatz ist die deutliche Verschiebung von normali- 
sierenden Operationen zu Schärfeoperationen und Rauschen erkennbar. 
Da bei aSVST die Kontrastnormalisierung bereits durch Histogramm- 
spreizung und Homogenisierung abgebildet wird, versucht das FAARO- 
Verfahren, Invarianzen gegenüber Bildschärfe und Rauschen aufzubauen. 
Hierbei wird versucht, kleine, nicht annotierte Fehler nachzubilden. 

Die verschiedenen FAA-Verfahren führen beim originalen NEU-Daten- 
satz zwar zu einer Verbesserung, verglichen mit dem vorverarbeiteten 
Datensatz ist aber eine deutliche Verschlechterung festzustellen. Dies 
liegt insbesondere daran, dass das FAARO-Verfahren beim vorverarbei- 
teten Datensatz einen hohen Anteil an kontrastnormalisierenden Ver- 
fahren auswählt, welche die klassenspezifischen Charakteristika im Bild 
zerstören (s. Abb. 4.6). Dadurch sinkt die Fähigkeit des CNN zu gene- 
ralisieren. Stattdessen werden bestimmte Bildeigenschaften auswendig 
gelernt, wodurch die Generalisierungslücke T steigt. Dieser destruktive 
Einfluss ist in anderen Datensätzen nicht feststellbar, da die Histogram- 
megalisierung primär die Textur verändert, die in dieser Stärke nur beim 
NEU-Datensatz maßgeblich für die Klassenzugehörigkeit ist. 

In einem weiteren Versuch wird das FAARO-Verfahren ohne die nor- 
malisierenden Operationen (Histogrammegalisierung, Auto-Kontrast) so- 
wie ohne Invertierung durchgeführt. Damit werden keine parameterfrei- 
en Methoden verwendet, die die Klassenzugehörigkeitsinformationen 
schädigen können oder zu unerwarteten Effekten bei der Anwendung 
führen. Die Ergebnisse hierzu sind in Tab. 4.6 in der Spalte des NEU- 
Datensatzes in Klammern aufgeführt. Die damit erzielte Genauigkeit 
liegt bei über 99,99% und ist damit die höchste erzielte Genauigkeit die- 
ses Datensatzes (vgl. Tab. 4.5). Im Folgenden wird das FAARO-Verfahren 
für NEU immer ohne normalisierende Verfahren verwendet. 
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Abbildung 4.6 Drei Beispiele für die augmentierten und vorverarbeiteten Bilder von 
unterschiedlichen Klassen des NEU-Datensatzes. Die Unterstrategie besteht jeweils aus 
Histogrammegalisierung und zufälligem Ausschneiden. Die linke Spalte zeigt jeweils das 
Originalbild, die mittlere das mit aSVST verarbeitete Bild und die rechte das augmentierte 
Bild. Während die Klasse der Bilder in ersten beiden Spalten gut unterscheidbar ist, fällt 
die Unterscheidung bei der dritten Spalte zu den oberen beiden Beispielen schwer. Durch 
die Histogrammegalisierung werden hier die spezifischen Charakteristika der Klassen 
verringert. 


Bewertung des Ressourcenbedarfs 

Im Folgenden wird der Einfluss von Vorverarbeitung und Augmentie- 
rung auf den Ressourcenbedarf des CNN untersucht. Der Ressourcenbe- 
darf wird hierzu implizit mithilfe des Channel-Pruning-Verfahrens [64] 
(vgl. Abschnitt 3.4.3) bestimmt. Je redundanter die Strukturen nach dem 
Training sind, desto weniger Gewichte werden effektiv für die Klassifi- 
kation benötigt und desto mehr Gewichte werden entfernt. Dies führt 
zu einem geringeren Ressourcenbedarf in der Inferenz. Das verwendete 
VGG-16-Netz hat insgesamt 4.224 Filterkerne k, und |H| = 14.736.714 
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Gewichte (fiir NEU und RSDDs geringfiigig weniger aufgrund der ge- 
ringeren Klassenanzahl). 


Tabelle 4.7 Anzahl der Filterkerne k;, die durch das Channel-Pruning-Verfahren entfernt 
werden. 


Augm. | VV. | CIFAR-10 SVHN NEU RSDDs 
FAARO | Original | 2.631 2.919 2.944 3.350 
Basis | aSVST | 2.715 3.045 2.638 3.494 
FAARO | aSVST | 2.705 2.928 2.857 3.394 


Tabelle 4.8 Anzahl der Gewichte |H| in Tausend des CNN nach dem Channel-Pruning- 
Verfahren. 


Augm. | VV. | CIFAR-10 SVHN NEU RSDDs 


FAARO | Original 1.303 621 1.116 13.660 
Basis aSVST 1.132 447 2.972 127 
FAARO | aSVST 1.162 594 1.407 52 


In Tab. 4.7 sind die durch das Channel-Pruning entfernten Filterkerne 
und in Tab. 4.8 ist die Anzahl der verbleibenden Gewichte aufgeführt. Für 
CIFAR-10, SVHN und RSDDs führt die Vorverarbeitung mit Basisaug- 
mentierung verglichen mit dem FAARO-Verfahren ohne Vorverarbeitung 
zu einer höheren Redundanz innerhalb des jeweiligen CNN. In der Folge 
werden mehr Filterkerne entfernt, wodurch weniger Gewichte in der 
Inferenz benötigt werden. Werden die vorverarbeiteten Bilder auch mit 
FAARO augmentiert, steigt die Anzahl der Gewichte leicht bzw. redu- 
ziert sich weiter für RSDDs. Da beide augmentierenden Verfahren eine 
ähnliche Genauigkeit aufweisen (s. Tab. 4.5), zeigt dies, dass die Vorver- 
arbeitung mittels aSVST-Verfahren eine ressourcensparende Alternative 
zu starker Augmentierung sein kann. 

Beim NEU-Verfahren führt die Vorverarbeitung zu einer überdurch- 
schnittlichen Steigerung der Testgenauigkeit. Dies rechtfertigt eine gerin- 
gere Redundanz im CNN und daher ist auch kein fairer Vergleich mit 
FAARO hinsichtlich der Parameter möglich. Durch die Augmentierung 
des vorverarbeiteten NEU-Datensatzes sinkt die Anzahl der Parameter 
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weiter, während die Testgenauigkeit sich dem Wert 1 annähert. Dieses 
Verhalten ist auch bei RSDDs feststellbar. 

Insgesamt sind durch das aSVST-Verfahren somit zwei Verhaltenswei- 
sen feststellbar. Für relativ große Datensätze (CIFAR-10, SVHN) führt die 
Vorverarbeitung zu einem geringeren Ressourcenanspruch an das CNN, 
während die Klassifikationsgenauigkeit geringfügig steigt. Bei kleinen 
Datensätzen, die teilweise unter schlechten Aufnahmebedingungen er- 
stellt wurden, führt die Vorverarbeitung zu deutlichen Verbesserungen 
bzgl. der Genauigkeit. Dies kann aber auch mit einer Steigerung der 
benötigten Ressourcen einhergehen. 


Robustheit gegenüber Adversarial Attacks 

Als Adversarial Attacks, zu Deutsch feindliche Angriffe, werden Angriffe 
aufeinen CNN-Klassifikator bezeichnet, die mit scheinbar minimaler Än- 
derung des Eingabebildes eine Fehlklassifikation des CNN provozieren. 
Im Folgenden wird die Robustheit von CNNs, die mit vorverarbeiteten 
bzw. augmentierten Daten trainiert wurden, gegenüber zwei konträren 
Angriffe untersucht, die eine Störung abhängig vom jeweiligen CNN 
und seiner Gewichte H sowie des Eingabebildes X berechnen. 


(a) €p = 0,000; (b) ep = 0,045; (c) ep = 0,100; (d) ep = 0,450; 
c = 99,98 % c = 94,34 % c= 3,95% c=0,01% 


Abbildung 4.7 Beispiel aus dem CIFAR-10-Datensatz [91] für einen Angriff mit linearer 
Perturbation. Die Abbildung zeigt ein Bild der Klasse LKW bei unterschiedlich starken 
Perturbationen und die erzielte Konfidenz c des Klassifikators für diese Klasse. Die Konfi- 
denz sinkt für stärkere Perturbationen stark, was final zur Fehlklassifikation führt, obwohl 
der LKW noch für €p = 0,450 erkennbar ist. 


Beim Angriff mit linearer Perturbation nach [52] wird die Schwäche 
von CNNs ausgenutzt, dass diese u.a. aufgrund ihrer ReLU-Aktivie- 
rungen zu linear sind, was einerseits das Training durch die bekannten 
Gradientenabstiegsverfahren beschleunigt, aber es andererseits einfa- 
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chen linearen Störungen des Eingabebildes ermöglicht, die Klassifikation 
stark negativ zu beeinflussen. Diese Annahme fufst auf der Beobachtung, 
dass die Zielfunktion eines CNN über Abwandlungen von V,‚f(AL, H) 
minimiert wird. GooDFELLOW et al. schlagen in [52] vor, mithilfe des Gra- 
dienten bzgl. eines Eingabebildes X € X, V Ar eine perturbative Störung 
= = e,sign(Vxf(X, H)) zu bestimmen. Die Stärke der Störung ist über e, 
anpassbar. Für die Angriffe wird die Störung = auf das Eingabebild ad- 
diert und in das CNN eingegeben. Ein Beispiel für einen solchen Angriff 
ist in Abb. 4.7 dargestellt. 

Statt eines Rauschmusters, das die Pixelwerte des gesamten Bildes 
betrifft, werden beim zweiten Angriff nur einzelne Pixelwerte verändert. 
Das in [152] vorgestellte Verfahren sucht mittels differentieller Evolution 
nach der Position und dem Farbwert, bei dem die Konfidenz des CNN 
für die wahre Klasse des Bildes minimal wird. Im Erfolgsfall führt dies 
zur Fehlklassifikation des jeweiligen Bildes. Hierbei wird angenommen, 
dass durch diese Angriffe das gestörte Bild außerhalb der intrinsischen 
Verteilung des Trainingsdatensatzes liegt. Beispiele aus dem CIFAR- 
10 Datensatz, die einen erfolgreichen Angriff zeigen, sind in Abb.4.8 
illustriert. 


m an 


(a) Flugzeug (LKW) (b) Flugzeug (Katze) (c) Flugzeug (Vogel) (d) LKW (Schiff) 


Abbildung 4.8 Beispiele aus dem CIFAR-10-Datensatz [91] für einen Pixelangriff. Die 
Bildunterschriften geben die geschätzte Klasse an, während in Klammern die wahre Klasse 
angegeben wird. 


Beide Angriffe werden auf jeweils 500 Testbildern der jeweiligen Da- 
tensätze ausgeführt. Aufgrund numerischer Schwierigkeiten bei einer 
Überkonfidenz [142] werden die Gradienten anhand der Ausgabe vor 
der letzten Aktivierung berechnet. Darüber hinaus werden nur Bilder 
betrachtet, die korrekt klassifiziert werden. 

Die Erfolgsraten für den Angriff mit Rauschmuster sind Abb. 4.9 dar- 
gestellt. Die Abbildungen deuten darauf hin, dass durch eine geeignete 
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Abbildung 4.9 Erfolgsraten der Rauschmusterangriffe für die vier Datensätze. Durch- 
gezogene Linien weisen auf die Verwendung des aSVST-Verfahrens hin, während bei 
gepunkteten Linien keine Vorverarbeitung angewandt wurde. Bei schwarzen Linien wird 
die Basisaugmentierung und bei roten FAARO-Augmentierung verwendet. Bei der orangen 
Linie wird eine spezielle Rauschaugmentierung verwendet. 


Vorverarbeitung die Erfolgsrate des Angriffs deutlich reduziert werden 
kann. Der Einfluss von Augmentierung ist hier deutlich geringer, führt 
aber auch zu einer leicht steigenden Resilienz gegenüber diesem An- 
griff. Beim NEU-Datensatz führt die Verwendung von FAARO oder von 
aSVST für leichte Störungen fast zu einer vollständigen Robustheit. Beim 
SVHN-Datensatz dagegen führt FAARO allein zu einer deutlichen Ver- 
schlechterung gegenüber der Basisaugmentierung. Ursache hierfür ist 
der große Anteil normalisierender Operationen bei FAARO (vgl. NEU, s. 
Tab. 4.5). Eine Vorverarbeitung führt dazu, dass irrelevante Informatio- 
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nen in den Bildern reduziert werden, während relevante Informationen 
verstärkt werden (s. Abb. A.3). Dies führt nach dem Training zu bes- 
ser diskriminierenden Merkmalen, die in der Folge robuster gegenüber 
gradientenbasierten Angriffen sind. 

Die entsprechenden Ergebnisse für Angriffe der zweiten Art auf einen, 
drei und fünf Pixelwerte sind in Tab. 4.9 aufgeführt und deuten darauf 
hin, dass hier eine gute Augmentierung den Erfolg des Angriffs stärker 
reduziert als eine gute Vorverarbeitung. Auffallend ist, dass Datensät- 
ze, deren Klasseninformationen über das gesamte Bild verteilt ist, eine 
deutlich höhere Resilienz gegenüber dieses Angriffs haben: Während 
die Informationen beim NEU-Datensatz in der Textur liegen, steckt eine 
hohe Redundanz bzgl. der Information in den Konturen der Ziffern bei 
SVHN. Diese Redundanz liegt beim CIFAR-10-Datensatz nicht vor, da 
die Semantik im Bild stark von der Kohärenz einzelner Pixel abhängt. 
Durch die Veränderung weniger Pixel verändern sich die extrahierten 
Merkmale daher bei CIFAR-10 deutlich stärker als bei SVHN (vgl. [40]). 
Ebenso ist der RSDDs-Datensatz sehr anfällig, da die Information über 
das Vorhandensein eines Defekts einen sehr lokalen Charakter hat. Der 
positive Einfluss der Augmentierung rührt daher, dass der Stichproben- 
umfang beim Lernen größer ist, wodurch die intrinsische Statistik des 
Datensatzes besser durch das neuronale Netz erfasst werden kann. Je 
stärker die Augmentierung, desto besser ist die Erfassung möglich. Das 
CNN wird darüber hinaus nicht nur gezwungen, mehr zu generalisie- 
ren, sondern kann Eingabebilder, die u. U. bei schlechter Augmentierug 
als nicht in der gelernten Verteilung interpretiert werden würden, besser 
erkennen. Dies führt zu einer höheren Resilienz gegenüber vermeint- 
lichen Ausreißern aus der Verteilung des Lerndatensatzes, wie sie der 
Pixelangriff versucht zu erzeugen. 

In einem weiteren Versuch werden die vorverarbeiteten Datensätze mit 
Basisaugmentierung und zusätzlich vier Rauschoperationen (gleichver- 
teiltes Rauschen, gaußverteiltes Rauschen, Impulsrauschen und Pixelrau- 
schen entsprechend des Pixelangriffs) trainiert, um die beiden Angriffe 
abzuwehren. Es ist jedoch anzumerken, dass hierdurch versucht wird, 
zufällige Variationen zu erkennen und einzuordnen, und nicht gezielt 
Angriffe präventiv abzuwehren. 
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Tabelle 4.9 Erfolgsraten in % der Pixelangriffe für die vier Datensätze für einen, drei und 
fünf Pixel (px). 


= aSVST 
px | Basis FAARO | Basis FAARO Rauschen 
1/416 71 | 204 219 10,7 
CIFAR | 3 | 54,2 230 | 401 29,5 12,9 
5 | 59,8 22,2 47,0 33,5 15,6 
1/166 66 |115 61 2,1 
SVHN | 3 | 344 141 | 142 82 41 
5 | 40,2 19,4 18,3 8,3 4,7 
1 | 16 <0,1 0,5 0,5 <0,1 
NEU 3 |] 7,8 <0,1 0,5 0,5 <0,1 
5 | 10,6 0,5 2,5 0,5 <0,1 
1 | 44,2 3,7 2,8 <0,1 <0,1 
RSDDs | 3 | 71,0 9,2 5,4 <0,1 <0,1 
5 | 75,1 13,4 8,6 <0,1 <0,1 


Während die Anfälligkeit gegenüber dem Rauschangriff sich mit Aus- 
nahme von RSDDs, wo die Erfolgsrate stark steigt, kaum ändert (s. orange 
Linien in Abb. 4.9), können durch die spezielle Rauschaugmentierung Pi- 
xelangriffe abgewehrt werden. Jedoch geht dies zulasten der Genauigkeit, 
die verglichen mit der Basisaugmentierung (s. Tab. 4.5) bei CIFAR-10 von 
94,31 % auf 92,46 %, bei SVHN von 97,26 % auf 96,75 %, bei NEU von 
99,74% auf 99,43% und bei RSDDs von 98,93 % auf 98,71% fällt. Dies 
entspricht den Beobachtungen von [82], dass eine Augmentierung gegen 
Angriffe zwar die Robustheit gegentiber diesen erhoht, aber nicht zum 
Lernen höherwertiger Merkmale beim CNN führt. 

Insgesamt führt Augmentierung und Vorverarbeitung zu einer höhe- 
ren Resilienz gegenüber Angriffen auf den Klassifikator. Insbesondere 
auf unverarbeiteten bzw. kleinen Bilddatensätzen (RSDDs und NEU) 
bietet aSVST und FAARO einen besonders hohen Schutz gegenüber An- 
griffen. Das gezielte Augmentieren mit potentiellen Angriffen verhindert 
nur den Erfolg von Impulsangriffen effektiv und führt zu einem Verlust 
der Genauigkeit nicht nur gegenüber der Augmentierungsstrategie der 
AutoAugment-Verfahren, sondern auch gegenüber der Basisaugmentie- 
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rung. Dieser Verlust ist ein Indiz dafür, dass das CNN mit aSVST und 
FAARO zu einer höheren Generalisierungsfähigkeit neigt [82]. 


Fazit 

Dieser Abschnitt hat gezeigt, dass das FAA-Verfahren und dessen Varian- 
ten ein legitimes Verfahren für die Suche nach einer geeigneten Augmen- 
tierungsstrategie sein kann. Eine geeignete Auswahl der Operationen 
und die Verwendung einer stochastischen Operationsstärke hat einen po- 
sitiven Einfluss auf das Verfahren: Normalisierende Operationen können 
aufgrund der Stichprobe, aus der am Ende die Augmentierungsstrate- 
gie entnommen wird, einen unerwarteten Einfluss auf die Texturen im 
Bild haben. Die Berücksichtigung von Operationen, die die Schärfe- und 
Rauscheigenschaften im Bild ändern, sind für manche Datensätze wie 
CIFAR-10 notwendig. 

Augmentierung und Vorverarbeitung können beide als Verfahren zur 
Konstruktion invarianter Merkmale nach [137] interpretiert werden. Bei- 
de führen zu einer erhöhten Testgenauigkeit und bei einer Kombination 
beider Verfahren werden in dieser Arbeit die besten Genauigkeiten er- 
zielt. Durch die Vorverarbeitung werden gewisse Invarianzen gebildet, 
die nicht durch die Augmentierung abgedeckt werden müssen. Daher än- 
dert sich die gefundene Augmentierungsstrategie bei einer Kombination. 
Der Ressourcenbedarf, der durch das kombinierte Verfahren impliziert 
wird, tendiert in zwei Richtungen. Einerseits reduziert er sich für gro- 
ße Datensätze, da durch die normalisierende Vorverarbeitung weniger 
Variationen auftreten, und andererseits kann insbesondere durch die 
Vorverarbeitung die Genauigkeit deutlich verbessert werden, was zu 
einem leicht steigenden Bedarf führen kann (NEU). Ferner sind CNNs 
robuster gegenüber Angriffen, falls sie mit vorverarbeiteten bzw. aug- 
mentierten Bildern trainiert wurden. Jo und Benciıo [82] zeigen, dass 
die Robustheit gegenüber Angriffen der Schlüssel für Generalisierung 
darstellen, da eine hohe Sensitivität dafür spricht, dass das CNN kei- 
ne Sachverhalte abstrahieren kann und keine segmantischen Konzepte, 
sondern statistische Irregularitäten in den Datensätzen gelernt hat. 
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4.4 Evaluation des Quantisierungsverfahrens 


In diesem Abschnitt wird das Quantisierungsverfahren aus Abschnitt 3.4 
evaluiert. Hierfür wird zunächst in Abschnitt 4.4.1 eine 8-Bit-Quantisie- 
rung näher untersucht, wobei u. a. die Hyperparameter und Erweite- 
rungen der Quantisierung analysiert werden. In Abschnitt4.4.2 wird 
das Verhalten bei einer niedrigeren Bitlänge untersucht. Anschließend 
werden in Abschnitt 4.4.3 Stärken und Schwächen des Quantisierungs- 
verfahrens diskutiert. 

Angelehnt an die Standardparameter der Chargennormalisierung wird 
ein Momentum m, = 0,99 gewählt. Dies ist notwendig, um in der End- 
phase des Trainings die Gewichte zu stabilisieren. Jedoch kann dies auch 
dazu führen, dass bei einer schlechten Initialisierung der Skalierungsfak- 
toren kein Optimum der Zielfunktion gefunden wird. 


4.4.1 Ergebnisse der 8-Bit-Quantisierung 


Im Folgenden wird das Quantisierungsverfahren und seine Erweite- 
rungen mit jeweils 8 Bit untersucht. Dies ist die technisch bedeutsamste 
Bitlänge, damoderne Rechnersysteme ihre Speicher in Bytes organisieren. 
In diesem Abschnitt wird zunächst in Voruntersuchungen der Einfluss 
relevanter Hyperparameter analysiert. Anschließend werden die in [185] 
veröffentlichten Erweiterungen untersucht. Am Ende wird das vorge- 
stellte Quantisierungsverfahren bei unterschiedlichen Netztopologien 
untersucht. 


Voruntersuchungen 

In diesem Abschnitt werden Vorversuche zur Quantisierung anhand 
des CIFAR-10-Datensatzes mit einem VGG-10-Netz durchgeführt. Diese 
umfassen die Untersuchung bzgl. der geeignetsten Verteilung der Bits 
zwischen Ganzzahl- und Nachkommabitlänge, dem Einfluss von Rau- 
schen auf Aktivierungen und Gewichte und dem optimalen Puffer aq. 
Bei jedem Experiment wird das CNN 100 Durchläufe mit dem gemäß 
aSVST-Verfahren verarbeiteten CIFAR-10 mit dazugehöriger FAARO- 
Augmentierung trainiert. Aufgrund der Vielzahl der Vorversuche wur- 
den die Trainings nicht wiederholt. Die Ergebnisse können damit leicht je 


84 


4.4 Evaluation des Quantisierungsverfahrens 


nach Versuch variieren und dienen lediglich dazu, bestimmte Tendenzen 
zu ermitteln. 


Tabelle 4.10 Testgenauigkeit in % für CIFAR-10 bei unterschiedlicher Verteilung der Bits 
mit und ohne kiinstlichem Quantisierungsrauschen nach der Konvertierung der Schich- 
ten und der Quantisierung der Gewichte. Testgenauigkeiten von unter 85% sind nicht 
aufgefiihrt, stattdessen wird die Ursache der schlechten Genauigkeit (Q: Scheitern durch 
Quantisierung der Gewichte, K: starke Konvergenzprobleme, L: leichte Konvergenzpro- 
bleme) angegeben (s. u.). Die erste Zeile gibt die Verteilung der Bits fiir die Gewichte als 
Tupel (Latw, Lg zw) an. Die erste Spalte gibt entsprechend die Verteilung (La; LgEA) 
der Aktivierungen an. 


Verteilung der Gewichte 
(2,10) (19) (08) (1,7) (2,6) (3,5) (4A) 
ohne Hinzufügen von Rauschen 
) | 91,25 9329 (K) (K) (K) K K 
) | 91,24 93,54 92,33 (K) 93,52 89,68 (K) 
(3,5) | 92,36 93,68 92,91 92,62 92,17 90,52 (Q) 
) ) 
) ) 


(L) 87,13 89,57 89,62 9,57 (Q (Q 
(L) oO © © © @Q Q 
mit kiinstlichem Quantisierungsrauschen 

) | 90,94 92,05 (Kk) (K) (K) K K 

) | 91,98 93,21 93,57 93,88 93,11 9212 (K) 
(3,5) | 91,85 93,25 92,84 92,81 91,88 91,46 (L) 

) 

) 


Verteilung der Aktivierungen 
= 
SQ 


(L) 87,75 87,74 90,67 90,39 (L) () 
(L) (L) (L) DB WW QU K 


Die Ergebnisse der verschiedenen 8-Bit-Verteilungen mit a, = 1,1 
sind in Tab. 4.10 dargestellt. Es kann keine verlässliche Aussage darüber 
getroffen werden, ob das künstliche Quantisierungsrauschen zu einer 
Verbesserung oder Verschlechterung der Genauigkeit führt, da sich das 
Verfahren diesbezüglich im Einzelfall unterschiedlich verhält. Die Ursa- 
chen für das Scheitern liegen entweder im Quantisierungsschritt oder 
bei den schlechten Konvergenzeigenschaften während des Trainings. 
Während bei Ersterem ein Verlust an Genauigkeit bei der Quantisierung 
von betragsmäßig kleinen Gewichten entsteht, führen schlechte Kon- 
vergenzeigenschaften dazu, dass vor Konvertierung und Quantisierung 
(vgl. Abb. 3.5) keine Genauigkeiten von über 85 % erreicht werden. Oh- 
ne das Hinzufügen von Rauschen können die Ursachen des Scheiterns 
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drei verschiedenen Fallen zugeordnet werden (s. Tab. 4.10): Fiir grobe 
Aktivierungen in Kombination mit groben Gewichten treten extreme 
Konvergenzprobleme auf, bei denen die erzielte Genauigkeit der eines 
Münzwurfs entspricht (Kennzeichen (K) in Tab. 4.10). Bei einer Kombi- 
nation von feineren Quantisierungsstufen der Aktivierungen mit groben 
Gewichten tritt ein Verlust der Genauigkeit aufgrund der Quantisierung 
der Gewichte auf (Q). Dies ist die Folge der näherungsweise gaußförmi- 
gen Verteilung der Gewichte um den Wert Null gepaart mit der Zuord- 
nung aller Gewichte mit |h;| < Aw/2 auf den Wert Null. Je größer Lo iw, 
desto kleiner ist L, zw und desto mehr Werte werden auf null gerundet. 
In der dritten Region treten leichte Konvergenzprobleme auf (L), d.h. es 
werden Genauigkeiten zwischen 20 % und 85 % erreicht, da die Ampli- 
tude der Aktivierungen zu klein ist. Die Quantisierungsprobleme sind 
gering und steigen mit der Ganzzahlbitlange der Gewichte. Der Uber- 
gang zwischen den Regionen (Q), (L) und der konvergierenden Region 
ist fließend. Ferner führt das künstliche Rauschen dazu, dass bei ungüns- 
tigen Bit-Kombinationen das Training seltener scheitert. Wie Tab. 4.10 
zeigt, wird durch das Rauschen bei der Kombinationen Lq a = (4,4) und 
Law = (1,7) eine Testgenauigkeit von tiber 85 % erreicht. 

Das Rauschen auf Gewichte und Aktivierungen bewirkt einerseits, 
dass bei jeweils groben Quantisierungen der Quantisierungseffekt be- 
rücksichtigt wird. Gleichzeitig kann es aber zu Konvergenzproblemen 
während des Trainings kommen, da das Rauschen einen zu starken Stör- 
effekt auf die Schätzung des Gradienten hat. Die Region der Quantisie- 
rungsprobleme löst sich daher zu Gunsten der leichten (L) und schweren 
(K) Konvergenzprobleme auf. 

In beiden Versuchsreihen treten jeweils die wenigsten Schwierigkeiten 
für Low = (1,9) und Ly, = (3,5) auf. Daher wird im Folgenden die 
Kombination aus beidem verwendet, d.h. Law = (—1,9) und Lg a = 
(3, 5). Ferner wird die Hinzugabe von künstlichem Rauschen verwendet, 
um Quantisierungsprobleme zu vermeiden. Eine ungünstige Wahl der 
Quantisierungsstufen! führt nicht nur zu schlechteren Testgenauigkeiten, 
sondern auch zu schlechten Konvergenzeigenschaften. Diese können ggf. 
durch Vortraining (s. u.) verbessert werden. 


1 Dieses Problem tritt auch bei tieferen CNNs und gröberer Quantisierung auf. Hinweise, 
woran dies liegt, werden verteilt im gesamten Abschnitt 4.4 geben. 
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Testgenauigkeit / % 


Puffer Qg 


Abbildung 4.10 Einfluss des Puffers a, auf die Testgenauigkeit bei verschiedenen Ver- 
teilungen der acht Quantisierungsbits für VGG-10 mit CIFAR-10. Die Legende gibt die 
Ganzzahlbits von Gewichten und Aktivierungen als Tupel (Lai w, £4) an. Die korre- 
spondierenden CNNs wurden fiir jeweils 30 Durchlaufe trainiert. 


Im Folgenden wird der Puffer Qq aus Gl. (3.5) untersucht, welcher 
für die Schätzung eines geeigneten Skalierungsfaktors für die Aktivie- 
rungen verwendet wird. Problematisch bei der Schätzung ist, dass die 
Aktivierungen je nach Charge B stark variieren können, da u. U. mangels 
passendem Eingabebild in der Charge einige Filterkerne k, nicht aktiviert 
bzw. nur schwach aktiviert werden. Hier erweist sich die Verwendung 
einer großen Chargengröße Ng ebenfalls (vgl. Abschnitt 4.2) als hilfreich, 
da aufgrund des Gesetzes der großen Zahlen die beschriebene Entar- 
tung der Aktivierungen vernachlässigbar ist. Um numerische Probleme 
auszuschließen, wird der maximale temporäre Skalierungsfaktor z; g auf 
den Wert 12 begrenzt. 

Trotz dieser Maßnahmen fällt eine Interpretation von a, a priori schwie- 
rig, da dieser Parameter als zulässiger Wert für einen Überlauf (vgl. [28]) 
oder als Puffer, der einen Überlauf verhindern soll, eingesetzt werden 
kann. Abbildung 4.10 deutet darauf hin, dass die optimale Wahl von a, 
sowohl von der Bitverteilung der Aktivierungen als auch der Gewichte 
abhängt. Allgemein deutet ag < 1 auf eine Pufferwirkung hin, während 
für aq > 1 Überläufe toleriert werden. 

In Abb. 4.10 wird die Testgenauigkeit in Abhängigkeit von aq für ver- 
schiedene Bit-Kombinationen dargestellt. Da künstliches Quantisierungs- 
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rauschen verwendet wird, kommt es nicht zu einer Degradierung der 
Genauigkeit infolge von Quantisierungseffekten. Im Zentrum steht bei 
diesem Versuch die Bit-Kombination Zw = (—1,9) und Ly = (3,5). 
Diese Kombination zeigt eine sehr geringe Abhängigkeit der Testgenau- 
igkeit von a, und weist ein lokales Maximum bei 1,1 auf. Eine Erhöhung 
der Ganzzahlbitlänge der Aktivierungen (Abb.: (—1, 4), (—1,5)) bzw. 
der Gewichte (Abb.: (0, 3)) bei einer 8-Bit-Quantisierung führen zu ei- 
ner Degradierung der Genauigkeit bei steigendem aq. Dies ist mit den 
tendenziell größeren Skalierungsfaktoren bzw. stärkerem Rauschen zu 
begründen, das die Konvergenzeigenschaften negativ beeinflusst. Je grö- 
ßer die Ganzzahlbitlängen, desto kleiner der Wert von Qg bei dem die 
Degradierung beginnt. Bit-Kombinationen, die zu kleineren Amplituden 
der Gewichte und Aktivierungen führen, verhalten sich umgekehrt und 
führen zu leichten Konvergenzproblemen. 

Beide Versuche deuten in Summe auf die Bitverteilung (—1,9) für 
Gewichte und (3,5) für Aktivierungen hin, da diese einerseits im Be- 
reich hoher Genauigkeiten liegt und andererseits robust gegenüber der 
Wahl von a, ist. Letzteres verspricht ferner eine Robustheit bei breiteren 
Faltungsschichten. Im Folgenden wird a, = 1,1 verwendet, da die Testge- 
nauigkeit tiber Qg bei der verwendeten Bitverteilung hier ein Maximum 
besitzt. Die beiden Versuche sollen nur qualitativ einen Eindruck für eine 
gute Wahl der Parameter dieses Quantisierungsverfahrens vermitteln. 
Für spezifische Anwendungen ist eine Ermittlung mit Validierungsdaten 
sinnvoll, wobei sich die Werte an den hier ermittelten Werten orientieren 
können. Die Wahl der Quantisierungsparameter hängt ferner stärker mit 
der Wahl der Topologie zusammen als mit der des Datensatzes. 


Einfluss des Vortrainings 

Im Folgenden wird das Vortraining aus Abschnitt 3.4.3 mit zehn Iteratio- 
nen zur Bestimmung der initialen Skalierungsfaktoren evaluiert. Hierzu 
werden verschiedene CNN-Konfigurationen jeweils mit und ohne Vor- 
verarbeitung jeweils fünf Durchläufe trainiert. Jedes Experiment wird 
anschließend 25-mal wiederholt, um eine Konvergenzrate zu berechnen. 
Hierzu beschreiben ryo, r75 und rə jeweils den Anteil der CNNs, die 
nach den fünf Durchläufen eine Testgenauigkeit von mindestens 90%, 
75% bzw. 20% erzielen. 
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Tabelle 4.11 Konvergenzraten rgo, r75 und ro in Prozent für verschiedene Topologien 
bei jeweils 25 Wiederholungen. 


Vortraining v v v 
T20 T75 T90 | T20 "75 T90 
VGG-10 100 100 100 | 100 100 100 
VGG-13 100 100 76 | 100 100 100 
VGG-16 96 44 0 100 96 60 
VGG-19 16 0 0 100 92 56 


In Tab. 4.11 sind die Konvergenzraten für verschiedene Topologien bei 
einer Verteilung der Quantisierungsbits von (—1, 9) für Gewichte und 
(3, 5) für Aktivierungen zusammengefasst. Diese Ergebnisse zeigen, dass 
das Quantisierungsverfahren ohne Vortraining bei tieferen CNNs Kon- 
vergenzprobleme hat, die durch ein Vortraining stark reduziert werden. 
Die bei tieferen CNNs hohen Konvergenzraten r75 und rgo nach fünf 
Durchläufen deuten darauf hin, dass die CNNs durch das Vortraining 
deutlich schneller konvergieren. 

In Tab. 4.12 sind die Konvergenzraten für verschiedene ungünstige 
Bitverteilungen (vgl. Tab. 4.10) und für gröbere Quantisierungen jeweils 
für VGG-10 gegeben. Für Law = (—1,9) und Lg = (1,7) ist kein Un- 
terschied bei den Konvergenzraten durch das Vortraining feststellbar. 
Die Genauigkeit nach fünf Durchläufen liegt in allen insg. 50 Fällen 
zwischen 83% und 89%. Durch das Vortraining wird allerdings die mitt- 
lere Genauigkeit von 85,63 auf 88,06% erhöht. Für die anderen beiden 
8-Bit-Verteilungen tritt durch das Vortraining eine Verbesserung der 
Konvergenzraten auf. Während bei einer 6-Bit-Quantisierung (vorletzte 
Zeile) keine Konvergenzprobleme vorkommen, treten diese bei einer 
4-Bit-Quantisierung (letzte Zeile) auf und können durch ein Vortraining 
abgemildert werden. 

Durch das Vortraining des VGG-10-Netz bei einer Verteilung der Quan- 
tisierungsbits von (—1,9) für Gewichte und (3,5) für Aktivierungen 
erhöht sich die Testgenauigkeit von 93,25% auf 93,75%. 

Insgesamt zeigt das Vortraining alle gewünschten Eigenschaften, d.h. 
eine Verbesserung der Konvergenzeigenschaften und der Genauigkeit. 
Daher wird im Folgenden immer ein Vortraining verwendet. 
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Tabelle 4.12 Konvergenzraten rgo und rz; in Prozent für verschiedene Bitverteilungen. 
Die Konvergenzrate rsg beträgt in allen Fallen 100%. 


Vortraining V v 


Law Lara | ra Too | T75 T90 
(-19) (1,7) | 100 0 100 0 

(0,8) (44) | 100 76 | 100 100 
(44) (44) | 88 8 100 100 
(-1,7) (3,3) | 100 100 | 100 100 
(-1,5) (3,1) | 96 4 1100 12 


Einfluss der Feinabstimmung 

Im Folgenden werden alle Datensätze aus Abschnitt 4.1 für VGG-10 und 
VGG-16 jeweils mit und ohne Feinabstimmung untersucht. Die auf drei 
Versuchen gemittelten Ergebnisse sind in Tab. 4.13 aufgeführt. 


Tabelle 4.13 Testgenauigkeit der Datensätze für VGG-10 und VGG-16 vor der Konvertie- 
rung (ayx), nach der 8-Bit-Quantisierung der Gewichte (agpi,) und nach der Feinabstim- 
mung (apa) jeweils in %. Zusätzlich wird die Standardabweichung des Quantisierungsfeh- 
lers og nach der Feinabstimmung sowie der Anteil in % der durch die Feinabstimmung ge- 
änderten Quantisierungsstufen der Gewichte ([H 4 |) angegeben. Die Standardabweichung 
des Quantisierungsfehlers vor der Feinabstimmung liegt aufgrund der Regularisierung 
leicht unterhalb des erwarteten Wertes von 2 "4#W . 12-05 ~ 5,6 - 1074. 


VGG-10 VGG-16 
ayK spit Ara 10%, IHal| avk spit Ara 100, [Hal 
CIFAR-10|93,75 93,73 93,68 2,75 33,2 |94,67 94,67 94,50 1,24 4,5 
SVHN |97,24 97,23 97,14 1,96 14,7 |97,44 97,38 97,40 0,87 1,5 
NEU 98,15 98,27 98,47 1,75 18,6 198,93 98,95 98,42 0,95 2,2 
RSDDs |98,07 98,04 97,27 1,39 15,0 |98,93 98,90 99,09 1,22 6,1 


Die Genauigkeiten von VGG-16 sind für alle Datensätze höher als 
für VGG-10. Sowohl für VGG-10 als auch für VGG-16 ist tendenziell ein 
geringer Verlust an Genauigkeit beim Verwenden der Feinabstimmung 
feststellbar, obwohl diese die geschätzte Standardabweichung des Quan- 
tisierungsrauschens reduziert. Bei der Quantisierung auf acht Bits ohne 
Feinabstimmung entsteht dagegen nahezu kein Verlust. Die unterschied- 
lichen Genauigkeiten von ay, und agp; unterscheiden sich in den meisten 
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Fallen erst in der zweiten Nachkommastelle, da sich die Hinzugabe von 
künstlichem Quantisierungsrauschen und die stochastische Rundung 
der Gewicht infolge der Quantisierung stochastisch identisch verhal- 
ten. Weitere Experimente ohne stochastisches Runden führen zu einem 
ähnlichen Abfallen der Genauigkeit, da hier wie bei der Feinabstim- 
mung den Gewichten deterministisch Werte zugeordnet werden. Das 
hierdurch indizierte Rauschen folgt zwar der gleichen Gleichverteilung, 
führt jedoch aufgrund des Histogramms der Gewichte (s. u.) zu anderen 
Ergebnissen. Obwohl bei VGG-10 ein deutlich höherer Anteil |H,| der 
Gewichte durch Feinabstimmung die Quantisierungsstufe ändert, ist 
beim VGG-16 durch die Feinabstimmung die Standardabweichung des 
Quantisierungsrauschens geringer. Dies ist auf den höheren Anteil an 
Nullen bei VGG-16 zurückzuführen. Insgesamt ergibt sich durch die 
Quantisierung ein leichtes Abfallen der Genauigkeit im Vergleich zur 
Verwendung der Standard-CNN-Architekturen aus den Abschnitten 
4.3-4.3.2. Diese fällt für größere CNNs geringer aus. Ferner eignet sich 
die Feinabstimmung nur bei groben Quantisierungen (s. Abschnitt 4.4.2). 


Channel-Pruning 

Die Ergebnisse für das Channel-Pruning der quantisierten CNNs sind 
in Tab. 4.14 gegeben. Die Ergebnisse sind weitestgehend unabhängig 
von Acn- Im Folgenden bezeichnet a,,, die Genauigkeit nach Konvertie- 
rung und Channel-Pruning und ag, bzw. ag, die Genauigkeiten nach 
der Quantisierung und ggf. Feinabstimmung für die Channel-Pruning 
verarbeiteten CNNs. Die Genauigkeit ayx vor der Konvertierung stimmt 
mit der aus Tab. 4.13 überein und ist daher nicht aufgelistet. Ferner wird 
mit N), die mittlere gerundete Anzahl an entfernten Filterkernen k; 
und mit rp.q der mittlere Anteil in % der entfernten Gewichte an der 
Gesamtanzahl |H| bezeichnet. Das gemäß der vorgestellten Verfahren 
modifizierte VGG-16-Netz besteht aus ca. 14,7 Mio. Parametern mit 4.224 
Filterkernen und ein VGG-10-Netz aus ca. 1,74 Mio. Parametern mit 1.152 
Filterkernen. 

Die erreichte Genauigkeit a.), nach dem Channel-Pruning ist in allen 
Fällen geringer die vor der Konvertierung ayx. Dies ist die direkte Folge 
aus dem Entfernen von Filterkernen. Bei der stochastischen Quantisie- 
rung auf acht Bit ist kein deutlicher Unterschied bei der Genauigkeit 
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Tabelle 4.14 Testgenauigkeit und Reduktion der Gewichte der CNNS für VGG-10 und 
VGG-16 bei der Verwendung von Channel-Pruning. 


VGG-10 VGG-16 
Gchp Agbit (FA Nenp "Red! “chp spit @FA Nenp "Red 
CIFAR-10 [93,33 93,32 93,44 16 6,1 |94,11 94,07 93,80 1.108 50,4 
SVHN 97,12 97,08 97,00 54 10,6/97,06 97,08 97,02 1.925 72,0 
NEU 96,92 96,82 96,17 237 62,3|98,78 98,86 98,86 1.696 76,3 
RSDDs [97,45 97,64 97,38 325 78,1|98,52 98,57 99,03 2.489 90,9 


feststellbar. Auch hier führt die Feinabstimmung aus den oben beschrie- 
benen Gründen zu einer leichten Verschlechterung der Genauigkeit. 
Erwähnenswert ist hier, dass in allen Konstellationen durch Feinabstim- 
mung rund 30 % der Gewichte verändert werden. 

Die Anzahl der entfernten Filterkerne bzw. die Reduktionsraten der 
Gewichte deuten darauf hin, dass eine komplexere Aufgabe, die sich 
aus dem Datensatz ergibt, eine höhere Kapazität des CNN erfordert. 
Dies führt dazu, dass bei kleineren CNNS weniger Filterkerne entfernt 
werden können. So werden bei VGG-10 mit CIFAR-10 im Mittel 16 Kerne 
und damit rund 6% der Gewichte entfernt, während bei VGG-16 mit 
RSDDs 2.489 Filterkerne bzw. knapp 91 % der Gewichte entfernt werden. 
Auffallend ist zudem, dass der Anteil der entfernten Filterkerne (für 
CIFAR-10 1,4% bei VGG-10 und 58% bei VGG-16) deutlich geringer ist 
als der Anteil der entfernten Gewichte. Dies deutet darauf hin, dass 
vor allem in den hinteren Schichten Filterkerne bzw. Gewichte entfernt 
werden. 

Durch Channel-Pruning können bei moderaten Verlusten der Genau- 
igkeit mitunter hohe Reduktionsraten erzielt werden. Die Ergebnisse 
deuten ferner darauf hin, dass die CNN-Iopologie bzw. -Kapazität sich 
an der Komplexität des Datensatzes orientiert. Insbesondere tiefe CNNs, 
die in den hinteren Schichten vergleichsweise wenig Filterkerne haben, 
erscheinen vorteilhaft. 
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Abbildung 4.11 Normierte Histogramme der Gewichte h; und Aktivierungen y; aller 
Faltungsschichten von VGG-10 und VGG-16 mit CIFAR-10. Bei den Aktivierungen wird 
der Wert Null nicht berücksichtigt. Je rötlicher die Farbe, desto weiter vorne im CNN ist 
die Schicht, und je bläulicher, desto weiter hinten. 


Analyse der Histogramme 

Im Folgenden werden die Histogramme der Gewichte und Aktivierun- 
gen beispielhaft für den CIFAR-10-Datensatz und die Implikationen für 
die Topologie untersucht. Abbildung 4.11 zeigt die relativen Häufigkeiten 
der einzelnen Quantisierungsstufen für die Gewichte und Aktivierun- 
gen. Auffallend hierbei ist, dass je weiter vorne eine Schicht ist (rötlicher), 
desto breiter ist die Verteilung der relativen Häufigkeit der Gewichte und 
desto steiler sinkt die Verteilung der Aktivierungen ab. Insbesondere in 
den hinteren Schichten führt dies zu einem sehr hohen Anteil an Nullen 
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bei den Gewichten (s. blauliche Ausreißer bei h; = 0 in Abb. 4.11 a und 
c.). Dies ist mit der höheren Anzahl an Gewichten zu begründen, die bei 
der VGG-Topologie in hinteren Schichten aufsummiert werden, um eine 
Aktivierung zu erhalten (vgl. Gl. (2.4)), was aufgrund der Skalierung mit 
sı (s. Gl. (3.3)) tendenziell kleinere Gewichte und größere Aktivierungen 
zur Folge hat. 


~ 
5 10°) J7 Z # 
X l g 
„on x oD 
E = 
5 104 57 3 
T 
2 © 
3 10 3 
3 ‘ © 
& D 
S S = R 
100 oneal Mes és 
—0,2 0 0,2 
h; 
(a) Gewichte VGG-10. 
FR x 
a 106 > + = = 
Tb i 4 
T £ 
5 104 3 
am 
£ g 
= 10$ 3 
© S 
& Dn 
© : Q 
10° 


(c) Gewichte VGG-16. (d) Aktivierungen VGG-16 


Abbildung 4.12 Histogramme der Gewichte h; und Aktivierungen y; aller Faltungs- 
schichten von VGG-10 und VGG-16 mit CIFAR-10. Bei den Aktivierungen wird der Wert 
null nicht berücksichtigt. Je rötlicher die Farbe, desto weiter vorne im CNN ist die Schicht, 
und je bläulicher, desto weiter hinten. 
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Jedoch sinkt die absolute Anzahl an betragsmäßig tendenziell großen 
Gewichten in den hinteren Schichten kaum (s. Abb. 4.12). Lediglich der 
Anteil kleiner Gewichte erhöht sich. Dies zeigt, dass der zur Verfügung 
stehende Wertebereich hinreichend gut ausgenutzt wird und dass eine 
hohe Redundanz in den hinteren Schichten insbesondere von tieferen 
CNNs zu erwarten ist”. Eine hohe Anzahl an Gewichten hat somit keinen 
direkten Einfluss auf den Klassifikator. Jedoch wird aufgrund des hohen 
relativen Fehlers bei der Quantisierung, dem zwingend erforderlichen 
Vortraining und dem höheren Rechenaufwand die maximale Breite — 
nicht jedoch die Tiefe - des CNN faktisch durch das Quantisierungsver- 
fahren begrenzt. 

Ferner häufen sich die Skalierungsfaktoren für VGG-10 zwischen den 
Werten 0,2 und 0,7. Diese Häufung tritt bei VGG-16 jedoch nur für Skalie- 
rungsfaktoren der ersten sieben Faltungsschichten auf. Hintere Schichten 
haben 512 Filterkerne und die Werte ihrer Skalierungsfaktoren haben 
eine breitere Verteilung zwischen 0 und 6. Die Verteilung ist stärker in 
Richtung 6 ausgeprägt, je weiter hinten die Schicht ist. Dies plausibilisiert 
die Ergebnisse und die Notwendigkeit des Vortrainings (s. 0.). Schichten 
mit mehr als 512 Filterkernen sind insgesamt für das Quantierungsver- 
fahren potentiell ungeeignet, da deren Gewichte sich eng um den Wert 0 
verteilen, was die Quantisierung fehleranfälliger macht. 

Bei einer geringen Anzahl an Filterkernen, wie bspw. in der ersten 
Schicht von VGG-10 mit 32 Filterkernen, sind die Gewichte betragsmäßig 
tendenziell groß. Hier wird der zur Verfügung stehende Wertebereich 
der Aktivierungen suboptimal ausgenutzt. 

Insgesamt hat die Topologie des CNN einen nicht vernachlässigbaren 
Einfluss auf die Quantisierung, da die Verteilung der Eingabe X, die An- 
zahl an Filterkernen L und die Verteilung der Gewichte H einer Schicht 
die Verteilung der Aktivierungen Y derselben beeinflusst. Beide Ver- 
teilungen dürfen nicht degenerieren, da dies den Quantisierungsfehler 
insbesondere bei zu kleinen Werten vergrößert oder zu konvergenzbe- 
dingten Schwierigkeiten im Training führt. Der Quantisierungsfehler ist 
jedoch durch das Hinzufügen von künstlichem Quantisierungsrauschen 
und dem stochastischen Runden bei der Quantisierung reduzierbar. Dar- 


? Diese These wird im vorherigen Abschnitt über das Channel-Pruning verifiziert, da ein 
Großteil der Gewichte in hinteren Schichten entfernt werden kann. 
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über hinaus hat eine degenerierte Verteilung der Aktivierungen einen 
negativen Einfluss, da sie gleichzeitig als Eingabe für die nächste Schicht 
dient. Bei einer geeigneten Topologie, d.h. in kleinen bzw. schmalen 
CNNs, zeigt das Verfahren seine Stärken, da eine adaptive Quantisie- 
rung vermieden werden kann und die gesamte Inferenz in der gleichen 
8-Bit-Architektur implementiert werden kann. 


4.4.2 Ergebnisse für gröbere Quantisierung 


Im Folgenden wird der Einfluss einer gröberen Quantisierung von VGG- 
10 und VGG-16 am Beispiel des CIFAR-10 Datensatzes diskutiert. Für 
jede Kombination der Aktivierungs- und Gewichtsbitlänge wird dafür 
das entsprechende CNN für 100 Durchläufe trainiert. Es findet ein Vor- 
training statt und künstliches Quantisierungsrauschen wird während 
des Trainings hinzugefügt. 

Für VGG-10 sind die Ergebnisse in Abb. 4.13 illustriert. Bei der di- 
rekten Quantisierung ohne Feinabstimmung tritt eine schwerwiegende 
Degradierung der Genauigkeit bei weniger als fünf Aktivierungsbits 
bzw. weniger als sechs Bit für Gewichte auf. Durch die Feinabstimmung 
wird zwar der Fehler bei der Quantisierung der Gewichte (s. Tab. 4.13) 
reduziert, jedoch ist der Einfluss auf die Genauigkeit gering. Lediglich 
bei einer Quantisierung mit vier Aktivierungsbits kann die Genauigkeit 
erhöht werden. Dies ist darauf zurückzuführen, dass der mittlere qua- 
dratische Fehler zwischen der Ausgabe des Teilnetzes und der Inferenz 
(ohne künstliches Quantisierungsrauschen) minimiert wird, was eine 
gröbere Quantisierung der Aktivierungen ermöglicht. 

Bei VGG-16 ist der Bereich ohne Degradierung der Genauigkeit bei der 
direkten Quantisierung mit jeweils mindestens sechs Bit deutlich kleiner 
(s. Abb. 4.14). Durch Feinabstimmung wird hier jedoch der Bereich ins- 
besondere für eine grobe Quantisierung der Gewichte vergrößert. So ist 
bspw. eine Quantisierung mit vier Bit möglich. Im Gegensatz zu VGG-10 
ist keine nennenswerte Verbesserung bei gröberer Quantisierung der 
Aktivierungen feststellbar. 

Feinabstimmung führt insbesondere bei großen CNNs und grober 
Quantisierung zu Verbesserungen. Bei großen CNN-Topologien ist ei- 
ne hinreichend große Redundanz im CNN verfügbar [33], die durch 
das aktive Abbilden durch Feinabstimmung der Gewichte auf diskrete 
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Abbildung 4.13 Erzielte Genauigkeit in % mit und ohne Feinabstimmung abhängig von 
der Bitlänge für VGG-10. 


Quantisierungsstufen reduziert werden kann. Bei kleinen CNNs reicht 
die Redundanz nicht aus, weswegen mehr Bits erforderlich sind. Tiefere 
CNNs sind darüber hinaus sensitiver gegenüber Störungen der Aktivie- 
rungen. Daher ist hier eine höhere Anzahl an Bits für die Aktivierungen 
erforderlich. 

Der Effekt der Quantisierung auf die Zielfunktion des Lerndatensatzes 
ist in Abb. 4.15 maßstabsgetreu dargestellt. Für die Visualisierung wird 
das Verfahren nach [100] mit den CNNs nach der Konvertierung verwen- 
det. Für jede Koordinate, die ausgewertet wird, wird das CNN mit der 
angegeben Bitlänge quantisiert, welche für Gewichte und Aktivierungen 
identisch ist. Bei der Auswertung werden ebenfalls die Aktivierungen 
quantisiert. Somit zeigt die abgebildete Zielfunktion das Verhalten des 
quantisierten Netzes. 

Der Vergleich der drei Zielfunktionen zeigt, dass mit steigender Bit- 
länge die Zielfunktionen insbesondere im Bereich des Minimums glatter 
werden. Bei einer geringeren Bitlänge verliert dieser Bereich seine kon- 
vexen Eigenschaften zunehmend und wirkt verrauschter. Infolgedessen 
kommt es zu einem Abfall der Testgenauigkeit, da das Minimum wäh- 
rend des Trainings nicht mehr zwangsläufig mit dem Minimum nach 
der Quantisierung zusammenfallt. 

Für eine zu grobe Quantisierung treten darüber hinaus schon während 
des Trainings Konvergenzschwierigkeiten auf. Dies führen bei vier Bit zu 
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Abbildung 4.14 Erzielte Genauigkeit in % mit und ohne Feinabstimmung abhängig von 
der Bitlänge für VGG-16. 


einem Gebirge ohne eindeutiges Minimum und mit vielen Ausreißern 
und ähneln den anderen Funktionen aus Abb. 4.15 in keinster Weise. Die 
Schwierigkeiten sind auf eine zu niedrige Auflösung der Aktivierungen 
zurückzuführen: Während durch Feinabstimmung der Verlust bei der 
Quantisierung der Gewichte selbst bei vier Bit ausgeglichen wird, wird 
der Einfluss der Aktivierungen nur beim Lernen berücksichtigt und kann 
nicht nachträglich verändert werden. Insbesondere das Abschneiden der 
Aktivierungen y; mit 0 < y; < 4/2 verhindert eine Konvergenz beim 
Training. Infolgedessen führt eine zu kleine Bitlänge der Aktivierungen 
dazu, dass die Zielfunktion kein markantes Minimum zeigt. 


4.4.3 Fazit 


In diesem Abschnitt wird das in Abschnitt 3.4 vorgestellte Quantisie- 
rungsverfahren für CNNs untersucht. Neben ausführlichen Analysen zu 
Hyperparametern wird die Bitverteilung für Gewichte und Aktivierun- 
gen sowie Erweiterungen des Verfahrens betrachtet. Es zeigt sich, dass 
jeweils sechs Bit für die Quantisierung von Aktivierungen und Gewich- 
ten ausreichend sind. In bestimmten Fällen reichen sogar vier Bit für die 
Gewichte aus. 

Außerdem zeigt sich, dass das Quantisierungsverfahren zwei weitere 
Einflussfaktoren hat: den Datensatz und die CNN-Topologie. Große bzw. 
tiefe CNNs haben schlechtere Konvergenzeigenschaften und benötigen 
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Abbildung 4.15 Zielfunktion für verschiedene Quantisierungsbitlängen bei Verwendung 
eines VGG-16-Netzes mit dem CIFAR-10-Lerndatensatz. Visualisierung nach [100]. 


daher zwingend ein Vortraining. Jedoch müssen die CNNs groß genug 
entworfen werden, um eine gewisse Redundanz aufzubauen, die für 
die Quantisierung ggf. mit Feinabstimmung genutzt werden kann. Bei 
CIFAR-10 mit VGG-10 ist diese bspw. zu klein für eine Quantisierung 
der Gewichte mit vier Bit, dadas CNN für diesen Datensatz unterdimen- 
sioniert ist. 

Channel-Pruning reduziert die Redundanz eines CNNs und beschleu- 
nigt somit die Inferenz. Das Verfahren ist bei einer zu groben Quantisie- 
rung nicht sinnvoll, da die Redundanzen für die Quantisierung benötigt 
werden. Für ein 8-Bit-CNN führt das Verfahren aber zu einem sinkenden 
Ressourcenbedarf der Inferenz. 

Zu breite CNNs, d.h. CNNs mit einer großen Anzahl bzw. Tiefe von 
Filterkernen in ihren Schichten, sind für das Quantisierungsverfahren 
potentiell problematisch, da gemäß Gl. (2.4) eine zu große Tiefe D des 
Eingabetensors X bzw. eine zu große Anzahl an Filterkernen L dazu 
führt, dass mehr Terme aufsummiert werden. Da die maximale Größe 
der zugehörigen Ausgabekarte Y, begrenzt ist, führt dies zu betrags- 
mäßig tendenziell kleineren Gewichte, was zu konvergenzbedingten 
Schwierigkeiten in der Lernphase führen kann. 
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Insgesamt eignet sich das Quantisierungsverfahren fiir konventionelle 
CNNs und stellt Bedingungen insbesondere an deren Breite. Eine hin- 
sichtlich der Kapazität effiziente Topologie ist darüber hinaus abhängig 
vom Datensatz, mit dem das entsprechende CNN trainiert wird. Da- 
her ist die datensatzspezifische Suche einer geeigneten Topologie unter 
Berücksichtigung der Effekte der Quantisierung hilfreich. Ein Algorith- 
mus für den metaheuristischen Entwurf von CNNs wird in Abschnitt 3.5 
vorgestellt. 

Das Quantisierungsverfahren wurde ferner in Detektions- [184] und 
Segmentierungsaufgaben [201] erfolgreich verwendet. Während bei der 
Detektion eine 8-Bit-Quantisierung ausreicht, erfordert die Segmentie- 
rung bis zu zwölf Bit für die Gewichte aufgrund der speziellen Netzto- 
pologie und der Breite einzelner Schichten des verwendeten U-Net nach 
[128]. 


4.5 Evaluation des heuristischen CNN-Entwurfs 
innerhalb der Verarbeitungskaskade 


Im Folgenden wird der evolutionäre Algorithmus aus Abschnitt 3.5 an 
den Datensätzen aus Abschnitt4.1 erprobt. Hierfür wird die Heuris- 
tik in die Verarbeitungskaskade gemäß Abschnitt 3.6 mit einer 8-Bit- 
Quantisierung eingebettet, d.h. es wird die datensatzspezifische Vorver- 
arbeitung (aSVST) und Augmentierung (FAARO) verwendet und nach 
Beendigung der Heuristik findet eine Konvertierung, Channel Pruning 
und eine Quantisierung auf acht Bit statt. Vortraining wird im Initialisie- 
rungsschritt der Metaheuristik angewandt. Eine Feinabstimmung wird 
aufgrund der Ergebnisse für acht Bit aus Abschnitt 4.4.1 nicht durchge- 
führt. 

Das Ziel ist es, eine Topologie für die zu quantisierenden CNNs zu 
finden, bei der einerseits im Quantisierungsschritt keine Degradierung 
der Genauigkeit auftritt und die andererseits dem Ressourcenbedarf der 
einzelnen Datensätze gerecht wird. Das fertige CNN soll auf dem Block- 
RAM eines FPGAs der Xi1inx7-Serie implementierbar sein. Da der 
Speicherplatz für die Gewichte und Aktivierungen hier der limitierende 
Faktor ist, wird der maximale Speicher der Fitnessfunktion auf rund 
95% des verfügbaren Block-RAM eines Vertreters der Xilinx7-Serie 
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gesetzt. Es gilt sg = 6.800 KB. Zum Berechnen der Fitness wird jeweils 
ein Validierungsdatensatz verwendet, der aus 10 % der ursprünglichen 
Trainingsdaten besteht. Die restlichen 90 % werden zum Trainieren der 
Topologien in der Metaheuristik verwendet. 

Die Metaheuristik wird mit Nyy = 24 Topologien initialisiert, wo- 
von aufgrund der Duplizierung von 12 zufälligen Topologien jeweils 
zwei identisch sind, die nach dem Vortraining für nmy,o = 6 Durchläufe 
trainiert werden. Die Anzahl an Durchläufen steigt während der T = 10 
Iterationen linear von vier auf acht. Eine höhere Anzahl an Iterationen 
und Durchläufen führt zu einer längeren Rechendauer, jedoch auch zu 
einer tendenziell höheren Genauigkeit am Ende. Je nach Datensatz liegt 
die Rechendauer bei dieser Wahl der Durchläufe und Iterationen bei rund 
5 bis 36h. Nach der letzten Iteration wird das fitteste CNN 50 Durch- 
läufe trainiert. Die jeweilige Anfangslernrate bei einem Training beträgt 
2. 1073. Für die Parameter der Fitnessfunktion gilt gemäß empirischer 
Vorversuche \, = Ay = 1 und A, = A, = 10. 
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Abbildung 4.16 Normierte Histogramme der Gewichte h; und Aktivierungen y; aller 
Faltungsschichten des von der Metaheuristik gefundenen CNNs für CIFAR-10. Bei den 
Aktivierungen wird der Wert Null nicht berücksichtigt. Je rötlicher die Farbe, desto weiter 
vorne im CNN ist die Schicht, und je bläulicher, desto weiter hinten. 


4.5.1 Ergebnisse 


Der zeitliche Verlauf der Populationen my, nach jeder Iteration ist in 
Abb. 4.17 beispielhaft für CIFAR-10 dargestellt. In der Metaheuristik sind 
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Abbildung 4.17 Entwicklung der Population am Beispiel des CIFAR-10-Datensatzes. 
Jede Zeile repräsentiert eine Population nach einer vollständigen Iteration, wobei die 
unterste Zeile die Initialpopulation Pyy o zeigt. Die Kanten kennzeichnen die Übergänge 
der einzelnen Topologien innerhalb einer Iteration. Die Anzahl der Schichten ist farblich 
codiert. Die fitteste Topologie eines Iterationsschritts ist grün gefärbt. Obwohl nach der 
Initialisierung eine Vielfalt an verschiedenen Topologien existieren, dominieren bereits 
nach der dritten Iteration Topologien mit zehn bis zwölf Faltungsschichten. 


bereits früh Topologien mit zehn bis zwölf Schichten dominant, wäh- 
rend Topologien anderer Länge aus der Population verdrängt werden. 
Der Verlauf ist für die anderen Datensätze prinzipiell gleich. Lediglich 
die Populationen konzentrieren sich um andere Werte für die Tiefe der 
CNNs. 

In Abb. 4.16 sind die Histogramme von Aktivierungen und Gewichte 
der konvertierten CIFAR-10-Topologie dargestellt. Verglichen mit den 
Histogrammen für VGG-16 in Abb. 4.11 haben die Aktivierungen einen 
sehr ähnlichen Verlauf, während die Histogramme der Gewichte mitun- 
ter eine deutlich breitere Glockenkurve bilden, was die Quantisierung 
begünstigt. Dies ist einerseits über die geringere Anzahl an Gewichten 
pro Schicht begründbar und deutet andererseits auf einen Einfluss der 
Quantisierung auf die Suche nach der Topologie hin. Da die Quanti- 
sierungseffekte bereits während des Trainings berücksichtigt werden, 
erreichen für die Quantisierung ungeeignete Topologien eine schlechtere 
Validierungsgenauigkeit und damit eine schlechtere Fitness. 
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Dies zeigt, dass nicht nach einer bestimmten Topologie gesucht wird, 
sondern Topologien gefunden werden, die prinzipiell ahnliche Eigen- 
schaften bzgl. Klassifikationsgenauigkeit und Ressorcenaufwand haben. 
Bei der Reproduktion der Ergebnisse wurden für die Datensätze To- 
pologien gefunden, die sich um wenige Schichten und die Verteilung 
der Filterkerne unterscheiden, aber sehr ähnliche Werte hinsichtlich der 
Fitness liefern. Weitere Versuche haben gezeigt, dass die Wahl der Fitness- 
funktion das Ergebnis stark beeinflussen kann, wodurch eine Abwägung 
zwischen den beiden Optimierungszielen sinnvoll ist. Der Ubersichtlich- 
keit halber wird im Folgenden für jeden Datensatz nur eine repräsentative 
Topologie betrachtet. 

Die quantitativen Ergebnisse des jeweils besten CNN, das durch die 
Metaheuristik ermittelt wurde, sind für die vier Datensätze in Tab. 4.15 
gegeben. Die erzielten Genauigkeiten sind mit Ausnahme von CIFAR-10 
mit denen von VGG-16 aus Tab. 4.14 vergleichbar. Jedoch ist der Ressour- 
cenbedarf für die Implementierung von VGG-16 deutlich höher, da für 
Gewichte 14.375 KB und für Aktivierungen 201 KB (SVHN, CIFAR-10) 
bzw. 804 KB (NEU, RSDDs) an Speicher benötigt werden. Ferner werden 
bei VGG-16 35,85 Mio. (SVHN, CIFAR-10) bzw. 143,4 Mio. (NEU, RSDDs) 
MAC-Operationen pro Bild ausgeführt. 
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Tabelle 4.15 Eigenschaften der gefundenen Topologien. Die Genauigkeiten sind in Pro- 
zent angegeben und ähneln denen aus Tab. 4.14. Die Anzahl der MAC-Operationen (in 
Mio.) sowie der Speicher für Gewichte (in KB) und Aktivierungen (in KB) bezieht sich auf 
das Modell nach dem Channel-Pruning. Die Laufzeit ist in hh:mm angegeben. Mit L wird 
die Anzahl an gefundenen Filterkernen der i-ten Schicht bezeichnet. 


CIFAR-10 SVHN NEU RSDDs 


ayk 92,91 97,28 98,91 98,56 
chp 92,24 96,88 98,37 98,51 
Agpit 92,49 96,86 98,37 98,49 
Fitness 40,91 466,8 7.554 1.123 
Laufzeit 24:12 36:23 5:22 22:23 
Tiefe Lmg 10 10 9 12 
MAC-Ops 14,25 12,67 25,91 18,31 
Aktiv. 184 156 382 330 
Gewichte 2.283 1.303 781 1.016 
LO 102 85 32 39 
L® 27 47 50 28 
L®) 106 81 45 54 
L® 123 118 94 32 
L®) 55 125 98 71 
LC®) 169 133 91 99 
LO 248 197 127 138 
L®) 238 179 182 118 
L®) 219 129 152 82 
LC®) 325 112 313 
LOD 82 
LO? 131 


Die gefundenen Topologien sind tendenziell tief und schmal, was 
die Quantisierung begünstigt (vgl. Abschnitt 4.4.1). Mit neun bis zwölf 
Faltungsschichten bewegt sich die Tiefe im Bereich von VGG-11 und VGG- 
16. Die Breite, d.h. die Anzahl der Filterkerne pro Schicht übersteigt im 
Gegensatz zu VGG-Topologien selten den Wert 250. Ferner ist in einigen 
Topologien ein Alternieren zwischen breiten und dünnen Schichten zu 
beobachten. Dies führt sowohl in der dicken als auch in der dünnen 
Schicht zu einer Reduktion der MAC-Operationen, da entweder die Tiefe 
des Eingabetensors D oder die Tiefe des Ausgabetensors L gering sind 
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(vgl. Abschnitt 2.2.2). Gemaf der Interpretation nach [2] neigen solche 
Topologien zu einem geringeren Grad an Auswendiglernen und einer 
besseren Fähigkeit zu generalisieren. Die Bestrafung größerer Netze 
führt daher nicht nur zu einem CNN, das auf FPGAs implementierbar 
ist, sondern hat auch eine geringere Neigung zur Überanpassung. 

Des Weiteren ist festzustellen, dass komplexere Datensätze zu einem 
größeren Ressourcenbedarf tendieren, was sich mit der Beobachtung 
aus Abschnitt 4.3.2 deckt. Der tatsächliche Ressourcenbedarf, den die 
Metaheuristik ermittelt, hängt darüber hinaus mit der erzielbaren bzw. 
erzielten Genauigkeit ab: Je höher die Genauigkeit und damit die Fitness, 
desto geringer fällt ein hoher Strafterm ins Gewicht, insbesondere auf- 
grund der hyperbolischen Abhängigkeit von Fitness bzgl. der Genauig- 
keit. Dies führt dazu, dass die Topologie bei CIFAR-10 stärker hinsichtlich 
des Ressourcenbedarfs als bzgl. der Genauigkeit optimiert wird. Um- 
gekehrt ergibt sich aufgrund der hohen Genauigkeiten bei RSDDs eine 
große Topologie. Bestätigen lässt sich diese Beobachtung durch die Be- 
trachtung der Reduktionsrate der Gewichte rp.g durch Channel-Pruning 
des besten CNN der Endpopulation. Diese liegt für CIFAR-10 bei 6,4% 
und für RSDDs bei 63,8 %°. Der hohe Ressourcenbedarf bei RSDDs ist 
auch auf mögliche Fehler bei der Annotierung zurückzuführen (vgl. Ab- 
schnitt4.1), aufgrund derer ein höheres Abstraktionslevel erforderlich ist, 
da zusätzlich zur eigentlichen Aufgabe echte Fehler von unechten Fehlern 
unterschieden werden müssen. 


4.5.2 Fazit 


Die Metaheuristik findet abhängig vom Datensatz Topologien, deren 
Eigenschaften sich mit den Erwartungen decken, da komplexere Daten- 
sätze mehr CNN-Kapazitäten benötigen und tiefe und schmale CNNs 
bevorzugt werden. Letztere haben nicht nur einen geringeren Speicher- 
bedarf für die Gewichte, sondern neigen weniger zum Auswendiglernen 
des Lerndatensatzes (vgl. [2]), was sich ebenfalls positiv auf den Speicher- 
bedarf auswirkt. Da die Quantisierungseffekte bereits in der Lernphase 
berücksichtigt werden, findet die Metaheuristik ferner eine Topologie, 


3 Für SVHN liegt diese bei 20,7 % und bei NEU bei 16,6 %, was auf eine im Vergleich zu 
den Versuchen aus Abschnitt 4.4 geringe Redundanz hinweist 
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die sich gut fiir die Quantisierung eignet, da ungeeignete Topologien die 
Fitness negativ beeinflussen. 

Die Wahl der Hyperparameter Aa, Ay, A, und A, sowie die Anzahl an 
Durchläufen beeinflussen das Ergebnis mitunter stark. Beispielsweise 
erhöht sich die Genauigkeit für CIFAR-10, wenn der Strafterm um den 
Faktor zehn kleiner ist und die Anzahl an Durchläufen verdoppelt wird, 
auf 93,29%, wobei das resultierende CNN breiter wird und eine höherer 
Reduktionsrate von ca. 28% durch das Channel-Pruning aufweist. Das 
gefundene CNN ähnelt damit dem quantisierten VGG-10-Netz nach 
Channel-Pruning hinsichtlich Anzahl der Gewichte, welche 1.59 KB ent- 
spricht, und der Genauigkeit von 93,33 %. Gleichzeitig verdoppelt sich 
in diesem Versuch die Laufzeit der Metaheuristik für CIFAR-10 von 
rund 24h auf 47h. Die Anzahl der Durchläufe pro Iteration ist an die 
Komplexität bzw. die Konvergenzgeschwindigkeit anzupassen, da der 
degradierende Einfluss einer evolutionären Operation nach dem an- 
schließenden Training zumindest ausgeglichen werden muss, sodass 
eine Degradierung nur infolge einer schlechteren Topologie stattfindet. 
Zusammenfassend ist für die Hyperparameter eine datensatzspezifische 
Wahl erforderlich, wenn der Datensatz zu komplex ist. Ferner führt eine 
hohe Validierungsgenauigkeit auch dazu, dass potentiell höhere Strafter- 
me tolerierbar sind. Dies führt bei Datensätzen mit einer hohen tatsäch- 
lich erreichten Genauigkeit zu tendenziell größeren CNN-Iopologien. 

Insgesamt eignet sich die Metaheuristik insbesondere für industrielle 
Datensätze, da diese weniger komplex sind und eine hohe Genauigkeit 
erreicht werden kann. Hierbei ist eine korrekte Annotierung essentiell. 
Bei komplexeren Datensätzen muss in Einzelfall zwischen Genauigkeit 
und Ressourcenbedarf abgewägt werden. 
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Im zweiten Teil dieser Arbeit wird der Einsatz von CNNs fiir die roboter- 
gestützte Inspektion am Beispiel des Remanufacturing untersucht. Dem 
Remanufacturing wird eine in Zukunft zunehmende Bedeutung in der 
Produktion vorausgesagt, da aufgrund einer möglichen Verknappung 
wichtiger Grundstoffe wie Kupfer, Silber oder Stahl steigende Rohstoff- 
preise an den Terminmärkten prognostiziert werden. Dies kann zur 
Unwirtschaftlichkeit der Produktion in bestimmten Bereichen führen. 
Das Remanufacturing zielt darauf ab, Altprodukte wieder zu neuwertigen 
Produkten ohne einem Verlust des Gebrauchswerts wiederaufzuberei- 
ten, was die Wertschöpfung auf hohem Niveau belässt [161]. Hierfür 
ist gemäß [108] eine Reihe von Arbeitsschritten erforderlich, die die De- 
montage, die Inspektion, die Reinigung, die Wiederaufbereitung, die 
Remontage und eine abschließende Prüfung umfassen. 

Dieser Teil dieser Arbeit ist im Rahmen des Projekts AgiProbot, das 
durch die Carl-Zeiss-Stiftung gefördert wird, entstanden. Das Ziel des 
Projektes ist der Aufbau einer autonomen, lernenden Gesamtfabrik, die 
das Remanufacturing am Beispiel von Elektromotoren mit unbekannter 
Bauform und unbekanntem Zustand durchführt. Die Gesamtfabrik ist 
gemäß der fluiden Automatisierung nach [170] entworfen. Diese Ar- 
beit beschäftigt sich mit der Erkennung und Inspektion von Ankern 
aus Elektromotoren an der sog. Befundungsstation [183]. Hierfür wird 
in Abschnitt5.1 ein CNN entworfen, welches Anker unterschiedlichster 
Formen erkennen und die relevanten Komponenten segmentieren kann. 
Das Segmentierungsergebnis wird anschließend durch klassische Bild- 
verarbeitung verbessert. In Abschnitt 5.2 wird ein bildbasierter Regler 
vorgestellt, der auf Grundlage von Merkmalen des Segmentierungser- 
gebnisses die Position zwischen einer Kamera und einem Anker findet, 
welche für eine anschließende Inspektion geeignet ist. 
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5.1 Robuste Objektsegmentierung mit 
neuronalen Netzen 


Der Inhalt der Abschnitte 5.1.2 bis 5.1.4 wurde größtenteils in [186] ver- 
öffentlicht. Abschnitt 5.1.5 stammt ursprünglich aus [187]. Im Folgenden 
wird der Entwurf eines neuronalen Netzes zur Segmentierung von Kom- 
ponenten von Altprodukten am Beispiel von Ankern aus Elektromoto- 
ren beschrieben. Die Segmentierung des Altproduktes stellt den ersten 
entscheidenden Schritt für das Remanufacturing dar, da die funktions- 
relevanten Komponenten des Ankers erkannt und lokalisiert werden. 
Dies erleichtert die anschließende optische Inspektion. Es wird eine hohe 
Anforderung an die Genauigkeit der Segmentierung gestellt, da dies 
die Grundlage für eine bildbasierte Regelung (s. Abschnitt5.2) und eine 
anschließende Inspektion ist. Um Anker unabhängig von ihrer Bauform, 
ihrer Lage oder ihres Produktzustandes robust segmentieren zu kön- 
nen, ist die Verwendung geeigneter Lerndaten sowie das Einbringen von 
Zusatz- bzw. Expertenwissen maßgebend. Daher wird in Abschnitt 5.1.2 
der verwendete Datensatz ausführlich beschrieben, in Abschnitt 5.1.3 die 
Augmentierung diskutiert, in Abschnitt 5.1.4 Erweiterungen des neuro- 
nalen Netzes beschrieben und in Abschnitt 5.1.5 Wissen über den Anker 
zu einem Modell aggregiert. Das verwendete neuronale Netz basiert auf 
dem U-Net nach [128]. 


5.1.1 Stand der Technik 


In früheren Arbeiten haben sich neuronale Netze [92] als vorteilhaft 
für komplexe Bildverarbeitungsaufgaben wie bspw. Klassifikation und 
Segmentierung herausgestellt. 

Der naive Ansatz, neuronale Netze für Segmentierungsaufgaben zu 
verwenden, ist mehrere Faltungsschichten aneinanderzureihen, da tiefere 
Netze bessere Eigenschaften hinsichtlich der Merkmalsextraktion aufwei- 
sen. Dieser Ansatz ist in praktischen Anwendungen meist nicht sinnvoll, 
da er eine hohe Rechenintensität aufweist. Das in [5] beschriebene Segnet 
ist eine hinsichtlich Rechen- und Speichereffizienz optimierte Form eines 
solchen Netzes und weist eine Autoencoder-Struktur auf: Durch Herun- 
tertasten wird die Höhe und Breite der Aktivierungskarten zunächst 
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Eingabe Ausgabe 


224 x 224x 3 5 224 x 224 x 4 


Abbildung 5.1 Schematischer Aufbau des U-Net. Blaue Pfeile beschreiben eine (3 x 3)- 
Faltungsschicht mit BN und ReLU-Aktivierung, violette Pfeile eine (1 x 1)-Faltungsschicht, 
rote Pfeile eine Max-Pooling-Schicht mit (-)|o mp und grüne Pfeile eine Hochtastschicht 
(-)}2- Die orangenen Pfeile sind Querverbindungen, bei denen die Aktivierungen kopiert 
werden und in einer späteren Schicht an den Aktivierungstensor konkateniert werden. Die 
Zahlen an den Aktivierungstensoren (blaue Rechtecke) beschreiben ihre Tiefe (waagerecht) 
und Höhe bzw. Breite (senkrecht). 


verkleinert, um anschließend durch Hochtastschichten die ursprüngliche 
Bildgröße zu erhalten. Da hier das Netzwerk nur auf Effizienz optimiert 
wird, wird das Potential neuronaler Netze für Segmentierungsaufgaben 
nicht vollumfänglich genutzt. 

Daher hat sich für die semantische Segmentierung das U-Net nach 
[128] durchgesetzt (s. Abb. 5.1). Das U-Net ist gekennzeichnet durch 
eine Autoencoder-Struktur mit Querverbindungen, die hochgetastete hö- 
herwertige Merkmale mit den Merkmalen aus früheren Schichten kom- 
binieren, und erlaubt so ein adaptives Lernen einer geeigneten Tiefe 
der Struktur. Ferner enthält das U-Net keine vollständig verbundenen 
Schichten, was das Verwenden nahezu beliebig großer Bilder bei glei- 
cher Netztopologie ermöglicht. Als Aktivierungsfunktion der letzten 
Schicht wird eine softmax-Funktion verwendet. In [128] wird die gewich- 
tete kategorische Kreuzentropie als Zielfunktion verwendet. Das U-Net 
wurde ursprünglich für die Segmentierung von Zellen in Bildern eines 
Hellfeldmikroskops verwendet. 

Insbesondere bei allgemeineren Segmentierungsaufgaben nehmen die 
Zielobjekte bzw. Zielobjekte bestimmter Klassen im Bild nur einen ge- 
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ringen Teil ein, was eine Unausgewogenheit der Klassen im Datensatz 
bedingt. Dies führt zu schlechteren Ergebnissen. In [153] wird vorge- 
schlagen, dass jede Klasse einen eigenen Beitrag zur Gesamtzielfunktion 
leistet, der entsprechend gewichtet wird. Ferner wird gezeigt, dass der 
generalisierte Sörensen-Dice-Koeffizient (gSDK) nach [29] von den un- 
tersuchten Zielfunktionen hierfür am besten geeignet ist. 

Weitere Erweiterungen betreffen die Architektur. Hierbei werden re- 
siduelle Verbindungen zwischen den Faltungsschichten eingebaut [36, 
178], Faltungsschichten innerhalb der Querverbindungen eingefügt [179] 
oder Punktwolken segmentiert [24], was jedoch wiederum die Rechenef- 
fizienz verschlechtert. 


5.1.2 Datensatz 


Für das Lernen eines neuronalen Netzes ist eine Vielzahl an annotierten 
Bildern in einem geeigneten Kontext erforderlich. Im Zuge dieser Arbeit 
wurde ein relativ kleiner Datensatz von insg. 96 Bildern angefertigt, da 
für die semantische Segmentierung von Ankerkomponenten aus Elek- 
tromotoren kein öffentlich zugänglicher Datensatz auffindbar ist. Der 
Datensatz ist aufgrund des Kosten- und Zeitaufwandes der Annotierung 
klein gehalten und wird im Folgenden beschrieben. 

Für den Datensatz wurden zum einen eigene Aufnahmen eines An- 
kers aus einem Anlassermotor der Firma Bosch verwendet und zum 
anderen frei zugängliche Bilder von Ankern von Online-Versandhäusern. 
Während erstere mehrere irrelevante Objekte im Hintergrund zeigen, 
besitzen letztere mehrheitlich einen einfarbigen Hintergrund. Für die Ver- 
wendung als Eingabe in ein neuronales Netz werden die Bilder zu einem 
Quadrat zurecht geschnitten und anschließend mittels eines geeigneten 
Antialiasing-Filter auf 224 x 224 Pixel herauf- bzw. heruntergetastet. 75 
der 96 Bilder werden für das Training verwendet. Die restlichen Bilder 
sind Testdaten. 

Den Ankerkomponenten Kommutator (K), Welle (W) und Ritzel (R) 
kommt eine besondere Relevanz für das Remanufacturing zu, da deren 
Leitfähigkeit und mechanischen Eigenschaften starken Einfluss auf die 
Funktionalität des gesamten Elektromotors haben. Damit ist die Segmen- 
tierungsaufgabe in zwei Teile zerlegbar. Einerseits wird zwischen Anker 
(A) und Hintergrund unterschieden und andererseits werden die Bild- 


110 


5.1 Robuste Objektsegmentierung mit neuronalen Netzen 


restlicher Anke} 


(a) Originalbild I (b) Grundwahrheit M 


Abbildung 5.2 Bei der Annotierung werden basierend auf dem Originalbild fiir den 
Anker und seine Komponenten (Kommutator, Welle und Ritzel) Masken erstellt. Bild nach 
[186]. 


elemente innerhalb der Ankermaske bzgl. ihrer Klassenzugehörigkeit 
differenziert. Dies unterscheidet die vorliegende Aufgabe vom Stand der 
Technik (s. Abschnitt5.1.1). Daher erhält jedes Pixel die Information, ob 
es sich innerhalb der Ankermaske befindet und ggf. zu welcher Klasse 
es gehört. Damit ergibt sich innerhalb der Ankermaske ein Vier-Klassen- 
Problem aus den drei relevanten Komponenten und dem restlichen An- 
ker. Mit dieser Formulierung wird sichergestellt, dass die Anker bei der 
Segmentierung in zusammenhängenden Gebieten liegen, und es wird 
dem Netz implizit vermittelt, dass die Komponenten immer innerhalb 
der Ankermaske liegen. Die Annotierung ist in Abb. 5.2 als Falschfarben- 
bild dargestellt. Im Folgenden wird das Eingabebild als I € R'??42243), 
die Grundwahrheit als M = [M,,Mx, Mw, Mg] € R'?#224,4) und das 
segmentierte Ausgabebild als P = [P,, Px, Pw, Pr] € R042244 bezeich- 
net. 


5.1.3 Augmentierung 


Aufgrund der geringen Anzahl an Bilddaten (s. Abschnitt 5.1.2) und der 
vergleichsweise großen Anzahl an Parametern des U-Net von ca. 31 Mio. 
sind geeignete Methoden zum Lernen invarianter Merkmale unumgäng- 
lich. Da sich die Lerndaten mitunter deutlich von den Manifestationen 
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des Ankers bei der bildbasierten Regelung unterscheiden, eignen sich 
die Verfahren aus Abschnitt 3.2 und 3.3 nicht. Daher wird im Folgenden 
Expertenwissen verwendet, um eine geeignete Augmentierungsstrategie 
zu finden, die in Abschnitt 6.1 evaluiert wird. 

Da die Bilder des Lerndatensatzes nur auf Grundlage hoher Diversitat 
der Anker ausgewahlt wurden, ist eine geeignete Augmentierung aus 
den Schwächen des Lerndatensatzes und den Erwartungen an die Bilder 
der bildbasierten Regelung ableitbar. Diese sind: 


a Die Lernbilder verfügen teilweise nur über einfarbige Hintergrtin- 
de, wodurch das U-Net dazu neigt, Abweichungen vom Hinter- 
grund als Objekt zu erkennen (s. Abschnitt 5.1.2). 


= Die Anker des Lerndatensatzes haben eine beliebige, unbekann- 
te Größe, was das Erlernen einer Skaleninvarianz aufgrund der 
Schwierigkeiten, die es speziell im maschinellen Lernen dabei gibt 
[89, 106, 146], erschwert. 


= Der Anker bei der bildbasierten Regelung kann in unterschied- 
lichsten Positionen und Perspektiven auftreten. 


= Bewegungsunscharfe, schlechte Fokussierung oder die Antialia- 
sing-Filterung bei der Abtastratenanpassung bewirken eine Tief- 
passfilterung des Eingangsbildes in das U-Net. 


= Aufgrund von Beleuchtung und ungünstiger Kamerasensorkali- 
brierung können Schwankungen von Helligkeit, Kontrast, Sätti- 
gung und Farbwerten sowie Rauschen auftreten. 


Die Augmentierungsoperationen werden als Kaskade wie in [30] aus- 
geführt und orientieren sich an den oben genannten Gegebenheiten. Die 
Kaskadenelemente sind jeweils eine Gruppe von Bildverarbeitungsope- 
rationen mit stochastischer Parametrisierung gemäß Abschnitt 3.3.2. In 
der ersten Stufe der Kaskade werden Spiegelungen stochastisch zu 50% 
an der x- und 50% an der y-Achse auf das Bild angewandt. Anschließend 
wird eine affine Transformation ausgeführt, die aus einer Rotation um 
einen zufälligen Winkel zwischen -5 und + a einer Translation, einer 
Scherung und einer Skalierung besteht. In der dritten Stufe wird Cutout 
nach [35] verwendet, um Verdeckungen zu simulieren. Die vierte Stufe 
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entspricht der sog. Hintergrundaugmentierung. In der letzten Stufe wird 
zufällig eine Gaußfilterung, eine Bildverscharfung, gaußsches Rauschen, 
Impulsrauschen, eine Farbwertverschiebung, eine Helligkeitsänderung, 
eine Sättigungssänderung oder eine Kontraständerung auf das Bild an- 
gewandt, um eine unzureichende Segmentierung infolge von schlechter 
Bildqualität zu vermeiden [37]. 

Einige Operationen werden im Folgenden näher betrachtet. Eine zen- 
trale Rolle kommt der Skalierung zu, da sie die Größe des Ankers im Bild 
bestimmt, für die das U-Net zuverlässig arbeitet. Da durch die Anker- 
maske M, aus der Grundwahrheit die Größe s, und Position (u4, va) 
des Ankers im Bild I(u, v) während der Lernphase bekannt sind, wird 
die Skalierung gezielt dazu verwendet, um die Objektgröße in einer be- 
stimmten Schwankungsbreite zu halten. Der Bereich, gegenüber den ein 
neuronales Netz skaleninvariant ist, kann nicht beliebig groß sein, da 
einerseits eine minimale Größe eines Objektes abhängig vom Schwierig- 
keitsgrad der Aufgabe erforderlich ist [14, 159, 181] und andererseits die 
maximale Größe eines Objektes durch das rezeptive Feld des neuronalen 
Netzes gedeckelt wird [109]. Daher wird der Schwankungsbereich der 
Objektgröße in dieser Arbeit auf 5 bis 20% der Objektgröße bezogen 
auf die Bildgröße festgesetzt. Dies entspricht bei einem Bild der Größe 
224 x 224 ca. 2.500 bis 10.000 Pixeln. Um das Bild anzupassen, wird ein 
Skalierungsfaktor für die Seitenlänge des Bildes berechnet, für den der 
Anker im Bild die gewünschte Größe hat. Eingedenk der Position des 
Objektes wird das Bild zurechtgeschnitten oder mit Nullen aufgefüllt 
und anschließend wieder auf 224 x 224 Pixel skaliert. 

Die Hintergrundaugmentierug fußt auf einer Veröffentlichung von 
TREMBLAY et al. [163], die auf dem Konzept der Domänenrandomisie- 
rung zum Erlernen der Variabilität realer Daten beruht. Dabei wird das 
neuronale Netz durch eine zufällige, nicht zwangsweise realistische Um- 
gebung dazu gezwungen, wesentliche Merkmale des Objekts zu erlernen. 
Für die Zwecke dieser Arbeit wird die Verwendung der Hintergrund- 
augmentierung auch aufgrund der einfarbigen Hintergründe motiviert. 
Hierzu wird aus der Grundwahrheit des Bildes I die Ankermaske M4 
extrahiert. Diese wird verwendet, um den Anker auszuschneiden und 
vor ein zufälliges Hintergrundbild I;; ; aus dem dt d-Datensatz [25] zu 
legen, welcher verschiedenste Texturen zeigt. Ein ähnliches Verfahren 
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wird auch in [7] verwendet. Das Ergebnis wird mit einen Tiefpassfilter 
KGauss gefaltet, um Artefakte beim Ausschneiden zu vermeiden. Mit der 
elementweisen Multiplikation © ergibt sich das resultierende Bild Iy zu 


In z KGauss x* (Ma OI+ (1 = Ma) © Ti) G (5.1) 


5.1.4 Erweiterungen 


Im U-Net nach [128] wird als letzte Aktivierung eine softmax-Aktivierung 
verwendet, welche für das in Abschnitt 5.1.2 beschriebene Problem unge- 
eignet ist, da das Ergebnis zu logischen Widersprüchen führt bzw. dazu, 
dass das Auftreten des Ankers und seiner Komponenten als zusammen- 
hängendes Gebiet nicht sichergestellt ist. Daher werden im Folgenden 
alternative Aktivierungsfunktionen diskutiert. 

Zwar kann eine sigmoide Aktivierung o,;,(-) dazu führen, dass sich 
die Komponentenklassen nicht gegenseitig ausschließen oder einzel- 
ne Komponenten nicht als Teil des Ankers erkannt werden, aber die- 
se Aktivierung lässt die Schätzung unabhängiger Masken zu. In ei- 
nem Nachverarbeitungsschritt können die genannten Widersprüche 
aufgelöst werden. Mit der Ausgabe des U-Net vor der letzten Akti- 
vierung Y = [Ya4, Yķ, Yw, Yr] werden die geschätzten Masken P zu 
P = fyin(Osig(Y)), wobei fujn(-) das Ergebnis binarisiert. 

Im Folgenden werden zwei weitere Aktivierungsfunktionen vorge- 
stellt, die die logischen Widersprüche sukzessive beim Training auflösen, 
was jedoch zu schlechteren Konvergenzeigenschaften führt. Im ersten, 
dem multiplikativen Ansatz mit Sigmoid-Funktion (MSig), wird ausge- 
schlossen, dass Komponenten außerhalb der geschätzten Ankermaske 
liegen. Die geschätzten Masken P berechnen sich gemäß 

Pa = fbin(Tsig(Ya)) und 
Po = Pa - foin(Asig(¥..)) mit x € {K, W, R}. (5.2) 
Beim zweiten Ansatz wird durch eine softmax-Funktion ogy(-) das ge- 
genseitige Ausschließen der Ankerklassen sichergestellt. Die sog. multi- 
plikative Softmax-Aktivierung (MSM) ergibt sich zu 


Pa = fpin(@sig(Ya)) und 
[Px; Pw, Pr, Px] = Pa - foin(@sm([¥x, Yw, Yr, 0])). (5.3) 
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Abbildung 5.3 Hinzugabe von Kanteninformationen in das U-Net. Bild nach [186]. 


Hierbei wird eine Platzhalterklasse X verwendet fiir den Fall eines Pi- 
xels innerhalb der Ankermaske ohne Zugehörigkeit zu einer der drei 
Komponenten. 

Da die semantischen Objektgrenzen des Ankers auf Kanten im Bild 
fallen, kann die Hinzunahme von Kanteninformation in einen der letzten 
Aktivierungstensoren des U-Net (s. Abb. 5.1) zu einer verbesserten Seg- 
mentierung führen. In dieser Arbeit wird der Marr-Hildreth-Operator 
(engl. Laplacian of Gaussian) [112] zur Kantenextraktion auf das zum 
Grauwertbild umgewandelte Eingangsbild angewandt. Anschließend 
wird der Betrag des Ergebnisses mit 0,02 gewichtet, beim Wert 1 ab- 
geschnitten und als weitere Eingabe in das U-Net verwendet. Es wird 
untersucht, ob eine Konkatenierung oder Addition vor der letzten (3x 3)- 
Faltungsschicht zu einer Verbesserung führt. Die Änderung des U-Net 
ist in Abb. 5.3 dargestellt. 


5.1.5 Modellbasierte Objekterkennung 


Im Folgenden wird ein modellbasiertes Verfahren beschrieben, das das 
Segmentierungsergebnis stabilisiert und Fehler teilweise korrigieren 
kann. Das Verfahren eignet sich für Bildsequenzen desselben Ankers 
wie bspw. Videos oder bei der bildbasierten Regelung und beruht auf 
folgenden Annahmen: 
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= Inder Aufnahme des Ankers sind immer der Kommutator und 
entweder ein oder beide Enden der Welle sichtbar und werden 
vom U-Net korrekt segmentiert. 


» Die Anker in aufeinander folgenden Bildern unterscheiden sich 
nur geringfügig in ihrer Perspektive und ihre Masken können über 
eine euklidische Transformation in Deckung gebracht werden. 


= Fehler bei der Segmentierung treten aufgrund kleiner, ungünstiger 
Transformationen (vgl. [4]) auf, gegen die das CNN variant ist, und 
kommen gegenüber einer korrekten Segmentierung selten vor. 


Die erste Annahme wird zum Verringern von Fehldetektionen ver- 
wendet, da zusammenhängende Objekte im segmentierten Bild für die 
Erkennung als Anker über mindestens zwei zusammenhängende Gebiete 
verfügen müssen, wovon eines als Kommutator und das andere als Welle 
erkannt wird. Zusammenhängende Objekte, denen eines dieser Gebiete 
fehlt, sind als Fehldetektionen interpretierbar. Um einzelne Pixel, die 
einer der beiden Klassen zugeordnet werden, nicht als zusammenhän- 
gendes Gebiet zu interpretieren, wird gefordert, dass ein solches Gebiet 
über mind. 10 Pixel verfügt. Da ein Ritzel am Anker je nach Bauform 
optional bzw. oft mit geringem Aufwand abbaubar ist, ist das Erkennen 
als Anker nicht abhängig von dessen Vorhandensein. Falls zu viele Kom- 
mutatoren und Wellen bzw. mehr als ein Ritzel erkannt wird, werden die 
kleinsten erkannten Gebiete entfernt. Durch eine ungünstige Perspekti- 
ve ist es möglich, dass kein Kommutator erkannt wird und das Objekt 
fälschlicherweise als Fehldetektion zurückgewiesen wird. Dieser Fehler 
tritt insbesondere dann auf, wenn die optische Achse der Kamera und 
die Rotationsachse des Ankers kollinear sind. Um diesen Fehler bei der 
bildbasierten Regelung zu vermeiden, muss entweder sichergestellt wer- 
den, dass sich die Kamera während der Regelung zu keinem Zeitpunkt 
an einer solchen Position befindet oder dass der Regler selbstständig die 
Situation auflösen kann. 

Auf Grundlage der beiden anderen Annahmen wird das Modell des 
Ankers zur Stabilisierung der U-Net-Ausgabe aufgebaut. Der in der 
dritten Annahme beschriebene Effekt, der durch Augmentierung zwar 
reduziert, aber nicht komplett verhindert wird, kann bei der Schätzung 
der Lageparameter für den bildbasierten Regler zu schwerwiegenden 
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Fehlern führen, die eine erfolgreiche Regelung unmöglich machen. Daher 
werden die Ausgaben vorheriger Bilder zu Hilfe genommen, um den 
Fehler einzudämmen. Das Verfahren wird im Folgenden beschrieben. 

Für die Stabilisierung ist ein Ensemble von Modellen des Ankers er- 
forderlich. Ein einzelnes Modell ist eine Repräsentation eines Ankers 
aus einer früheren Eingabe in das U-Net. Ein Modell besteht aus dem 
Bild des Ankers ohne Hintergrund Iņ; = I © Pa, den extrahierten 
ORB-Merkmalen (s. u.) und einer Konfidenz Cm.: die zu Beginn mit 
Cu. = 0,75 - P initialisiert wird. Für die Stabilisierung der aktuellen 
Eingabe wird das passende Modell des Ensembles dazu verwendet, um 
die aktuelle Schätzung der Ankermaske mit der Ankermaske des Mo- 
dells zu fusionieren. Gleichzeitig wird mit der aktuellen Schätzung die 
Konfidenz des Modells aktualisiert, aus der sich nach einer Binarisierung 
die Ankermaske des Modells ergibt. 

Falls das Ensemble leer ist oder dem Anker aus dem Eingabebild kein 
Modell zugeordnet werden kann, wird der Anker in der Eingabe als 
neues Modell hinzugefügt. Das setzt voraus, dass ein Anker aus dem 
Eingabebild I extrahiert werden kann (s. 0.). 

Nach der Segmentierung werden innerhalb der geschätzten Anker- 
maske P, im Eingabebild I ORB-Merkmale nach [130] detektiert. Die 
gefundenen Merkmale werden über die euklidische Distanz mit den 
Merkmalen der bereits vorhandenen Modelle abgeglichen. Punkte aus 
der Eingabe und dem jeweiligen Modell mit ähnlichen Merkmalen bilden 
Paare. Falls genügend Punktepaare vorhanden sind, kann eine euklidi- 
sche Transformationsmatrix Ts zwischen der Eingabe und dem i-ten 
Modell geschätzt werden. Die affine Transformation wird auf das Einga- 
bebild und das dazugehörige Segmentierungsergebnis angewandt. Diese 
werden zu I und P™. Anschließend wird die Ähnlichkeit zwischen 
Eingabe und Modell 7 berechnet, falls der Jaccard-Koeffizienten zwischen 
den Ankermasken von Eingabe und Modell den Wert 0,7 überschreitet. 
Die Ähnlichkeit entspricht dann dem Korrelationskoeffizienten der Pixel 
innerhalb der Ankermaske P’ zwischen den Bildern der Anker. Falls die 
maximale Ähnlichkeit größer als 0,9 ist, wird die dazugehörige Konfi- 
denz aktualisiert. Andernfalls wird der Anker der Eingabe als ein neues 
Modell hinzugefügt (s. o.). Dieses Verfahren ist in Abb. 5.4 dargestellt. 
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Abbildung 5.4 Schematischer Ablauf der Zuordnung von Eingabebild I zum jeweiligen 
Modell j = 1, ..., n. Mit Sy(-, -) wird die Funktion zur Berechnung der Ähnlichkeit be- 
zeichnet. 


Die Aktualisierung der Konfidenzen Cy; des Modells mit der höchs- 
ten Ähnlichkeit j = argmax,Sy(1", I\,,;) ergibt sich aus einer gleitenden 
Mittelwertbildung zwischen Cy, ; und den geschätzten Masken P der 
Eingabe. Es gilt Cay; = @mCam,; + (1 — ay) - Pa. Die Masken der 
Komponenten des Modells Py; ergeben sich durch die Binarisierung 
von Cy, ;. Überschüssige Komponenten werden wie oben beschrieben 
entfernt. Falls zu wenige Komponenten einer Klasse gefunden werden, 
wird der Schwellenwert bei der Binarisierung dieser Klasse angepasst. 
Die stabilisierte Ausgabe des Eingangsbildes I ergibt sich aus der affinen 


Transformation von Py, ; mit Te d.h. die affine Rücktransformation 
des am besten passenden Modells wird als Schätzung der Masken des 
aktuellen Bildes verwendet. 
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5.2 Bildbasierte Regelung mit neuronalen 
Netzen 


Der im Folgenden beschriebene Regler basiert auf [187]. Die bildbasierte 
Regelung mit Hilfe von neuronalen Netzen hat gegentiber der klassischen 
bildbasierten Regelung einige Vorteile: Wahrend bei der klassischen 
bildbasierten Regelung einfache, stabile Merkmale aus der Aufnahme 
der beweglichen Kamera extrahiert und in eine Bewegung der Kamera 
überführt werden, erlauben neuronale Netze, die erforderliche Bewe- 
gung direkt aus der Eingabe zu schätzen. Aufgrund der hohen Anzahl 
trainierbarer Parameter und der Komplexität verhalten sich CNNs wie 
Black-Box-Modelle, was die Erklärbarkeit für eine bestimmte Bewegung 
- insbesondere dann, wenn sie fehlerhaft ist - enorm erschwert. In Ab- 
schnitt 5.2.1 wird der Stand der Technik für den Einsatz von CNNs bei 
der bildbasierten Regelung beschrieben. 

In dieser Arbeit wird ein bildbasierter Regler für Anker vorgestellt, 
der die Vorteile von klassischer bildbasierter Regelung und Regelung 
mithilfe neuronaler Netze vereint. Dazu wird die stabile Segmentierung, 
die in Abschnitt 5.1 beschrieben wird, verwendet. Diese erlaubt die stabile 
Extraktion komplexer Merkmale in Bildern. Dies wird zusammen mit 
der dazugehörigen Jacobi-Matrix in Abschnitt 5.2.2 beschrieben. Das 
dazugehörige Regelsystem wird in Abschnitt5.2.3 thematisiert. Zum 
Abschluss wird in Abschnitt 5.2.4 auf die Problematik der Skalenvarianz 
von neuronalen Netzen eingegangen und ein Lösungskonzept hierfür 
vorgestellt. Das Ziel der Regelung ist, die Kamera so zu positionieren, 
dass die optische Achse senkrecht zur Rotationsachse des Ankers steht. 
Aufgrund der annähernden Rotationssymmetrie bilden die gesuchten 
Punkte einen Kreis um den Anker. Die Zielpositionierung ist in Abb. 5.5 
dargestellt. 


5.2.1 Stand der Technik 


Der Einsatz von neuronalen Netzen für die bildbasierte Regelung un- 
terscheidet sich von der in Abschnitt 2.3.2 beschriebenen klassischen 
bildbasierten Regelung darin, dass neuronale Netze auf Grundlage ei- 
nes Eingangsbildes I die Bildmerkmale m oder die Steuerungsvariablen 
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Abbildung 5.5 Zielpositionierung der Kamera zum Objekt. Der violette Pfeil deutet die 
optische Achse der Kamera an, die orthogonal zur Oberflache des Ankers steht. Der violette 
Kreisbogen markiert die giiltigen Zielpositionen des optischen Zentrums der Kamera. 


direkt schätzen. Ein oft verwendeter Ansatz beruht auf dem Verstär- 
kungslernen (engl. reinforcement learning) der Steuerung der beweglichen 
Kamera [95, 116, 134]. Nachteilig an dieser Methodik ist, dass das Ver- 
halten von neuronalen Netzen nicht vollständig verstanden ist [88, 118], 
dass neuronale Netze sich mit wenig Aufwand täuschen lassen [53, 73, 
119] und dass neuronale Netze auf neuartige Umgebungen unerwartet 
reagieren können [26]. 

Die folgenden Verfahren verkleinern die problematischen Auswir- 
kungen des Black-Box-Modells, indem dem CNN Zusatzinformationen 
gegeben werden, nur die Bildmerkmale geschätzt werden oder die Ei- 
genschaften durch perspektivische Verzerrung direkt trainiert werden. 

SAXENA et al. [135] verwenden ein CNN, um eine Drohne zu steuern. 
Dabei wird als Eingabe für das Netz das aktuelle Bild der Kamera der 
Drohne und das gewünschte Bild an der Zielposition übergeben. Das 
neuronale Netz berechnet dann mithilfe der erlernten Merkmale einen 
Bewegungsvektor, mit dem das neue Bild der Drohne dem gewünschten 
Bild ähnlicher ist. Ein ähnliches Verfahren wird von Toxuna et al. in [160] 
vorgestellt. Jedoch schätzt hier das neuronale Netz die Differenz zwischen 
aktueller und gewünschter Lage eines Endeffektors aus verschiedenen 
Eingabebildern. In [6] wird dagegen ein neuronales Netz verwendet, 
um die Lage von perspektivisch verzerrten Bildern zu schätzen, anhand 
derer ein Regler entworfen wird, der die theoretische Kameralage für ein 
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unverzerrtes Bild schätzt. Puanc et al. [124] nutzen ein U-Net [128], um 
Punktmerkmale zu bestimmen, mit denen eine klassische bildbasierte 
Regelung erfolgt. 


5.2.2 Bildmerkmale und Jacobi-Matrix 


Für die Bestimmung der Bildmerkmale für die bildbasierte Regelung 
wird die geschätzte Ankermaske P, verwendet. Aus der Menge P, = 
{(u, v) | Pa (u, v) = 1}, „, der Bildkoordinatentupel, die bei der Segmen- 
tierung dem Anker zugeordnet werden, kann die Position [u,, va]' des 
Ankers im Bild durch eine Mittelwertbildung geschätzt werden. Die Po- 
sition eignet sich als Punktmerkmal (vgl. Abschnitt 2.3.2) fiir den Regler. 
Mittels der Koordinatentransformationen aus Gl. (2.8) und (2.9) ergeben 
sich die finalen Bildmerkmale der Position |z} 4, y} 4]'. Die Zielwerte 
[c3 yP*,]' werden auf null gesetzt, sodass im Optimum das Zentrum 
des Ankers in der Bildmitte liegt. Die zugehörige Jacobi-Matrix J, ist in 
Gl. (2.16) gegeben. 

Die Orientierung ergibt sich ebenfalls aus P4. Hierfür wird der Ei- 
genvektor mit dem größten Eigenwert aus der Kovarianzmatrix bzgl. 
der Punktmenge P, berechnet. Die Orientierung ¢, € [—*/2, +7/2] des 
Ankers ergibt sich aus der Steigung dieses Eigenvektors. Der Steigungs- 
winkel ¢, und der Mittelpunkt des Ankers [x] ,, y? a] definieren eine 
Gerade. Diese kann gemäß [173] durch den Abstand zum Ursprung p, 
und den Winkel 9, der zur Orientierung orthogonalen Gerade parame- 
trisiert werden. Aus der zeitlichen Ableitung der Polarkoordinaten der 
normalisierten Bildebene [18] und den Geradenparametern p4 und 6, 
ergibt sich die Jacobi-Matrix für den Winkel 0, zu 


vk 
Oa, = [Joxvx Jovy Jova PacosO, pasin Oa 1] «| . 6.4) 


Gemäß [17] ist die Verwendung der Jacobi-Matrix im Optimum eine 
legitime Approximation der Jacobi-Matrix zum Zeitpunkt t. Bei einer 
optimalen Kameraposition ist die Ausbreitung der Gerade in die Tiefe 
vernachlässigbar. Ferner gilt im Optimum p, = 0 aufgrund der Ziel- 
position [x?*,, yP ]" (s.o.). Die Jacobi-Matrix aus Gl. (5.4) kann somit 
zu Ją = [0 0000 1] vereinfacht werden. Der Winkel 6, kann 
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durch einfache geometrische Uberlegungen aus der Geradensteigung 
und dem Ankermittelpunkt bestimmt werden. Der Zielwinkel ist 0, was 
dazu führt, dass der Anker waagerecht im Bild liegt. 

Der Abstand zwischen der Kamera und dem Objekt bestimmt dessen 
Größe im Bild. Gemäß Abschnitt 5.1.3 kann das U-Net nur Objekte einer 
definierten Größe segmentieren. Je größer aber das Objekt im Bild ist, 
desto detailreicher kann der Anker aufgenommen werden. Jedoch muss 
technisch bedingt die Kamera einen Mindestabstand vom Objekt haben. 
Es wird angenommen, dass die Objektgröße s4 = hı a :dı,a & durch die 
Fläche eines begrenzenden Rechtecks mit den Seitenlängen hy a und by a 
korrigiert um den Faktor €, beschrieben werden kann und dass diese 
nur vom Abstand ZX zum Objekt abhängt. Die Änderung der Fläche 
As, des Ankers abhängig von hı „ und b; „ ist dann gegeben durch 


Asa = a (hı aAbı,a + bıaAhı a + Ah aAbı a). (5.5) 


Mit den Zusammenhängen 


und der Abschätzung (AZS)? « AZS « ZX ergibt sich 
Eady alia 
As, = —2 7K AZF bzw. 
by ah i 
iaa ao ZK = Jya VE. (5.7) 


Die korrespondierende Jacobi-Matrix ist dannJ,=|0 0 Jy, 0 0 0]. 
Um die Höhe h, , und Breite b, „ berechnen zu können, wird ein begren- 
zendes Rechteck in der Ankermaske P, geschätzt, deren Sensorkoordina- 
ten in Koordinaten der imaginären Bildebene transformiert werden. Die 
aktuelle Größe s, ergibt sich als Quotient zwischen der Anzahl an Bildpi- 
xeln und der Mächtigkeit von P4. Der Korrekturfaktor €, wird ebenfalls 
zu jedem Zeitschritt geschätzt und ergibt sich als Quotient zwischen der 
Anzahl der Pixel im begrenzenden Rechteck und der Mächtigkeit |P,|. 
Im Folgenden werden zwei konkurrierende Bildmerkmale für die Ori- 
entierung der Kamera entlang der XX- und Y*-Achse vorgestellt. Für 
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das erste Merkmal werden die langen Kanten des Ankers verwendet, 
welche mit der probabilistischen Hough-Iransformation [86] und einem 
Schwellenwertvergleich der Lange der Kanten berechenbar sind. Bei 
einer Neigung zwischen Objekt- und Bildebene verlaufen diese Linien 
nicht parallel, sondern schneiden sich im perspektivischen Zentrum des 
Bildes. Die optimale Steigung dieser langen Kanten ist identisch mit 
dem Orientierungswinkel ¢,4. Kanten, die eine zu große Differenz hierzu 
aufweisen, werden nicht weiter berücksichtigt. Da sich die Rotationskom- 
ponente um die z-Achse gegenüberliegender Kanten ausgleicht, wird 
der korrespondierende Anteil in der Jacobi-Matrix zu null gesetzt, um 
Fehler, die entstehen, falls mehrere lange Kanten geschätzt werden, zu 
vermeiden. Dai. A. eine unbekannte Anzahl N an Kanten gefunden wird, 
ergibt sich die Jacobi-Matrix zu (vgl. Gl. (5.4)) 


0 0 0 PprocosYao pPpaosinya, 0 0 
J= |: : (5.8) 


0 0 0 pancostan Pansinvan O 


Die Alternative hierzu stellt die Bestimmung der Orientierung mit- 
hilfe der Schätzung der Bodenebene dar, die durch einen Stütz- und 
zwei Spannvektoren darstellbar ist. Bei der gesuchten Orientierung der 
Kamera steht deren optische Achse orthogonale zur Bodenebene. Un- 
ter der Annahme, dass die Spannvektoren achsenparallel verlaufen, ist 
lediglich die Änderung der Tiefe ZX in X*- und Y*-Richtung für den 
Regler zu bestimmen. Im Gegensatz zur ersten Methode, bei der die 
optimale Zielposition auf einem Kreis(-bogen) liegt, ist die Zielposition 
hier eindeutig. Für eine korrekte bildbasierte Regelung ist es erforderlich, 
dass die Symmetrieachse des Ankers parallel zur Bodenebene ist. Unter 
der Annahme, dass in einem Großteil des Bildes die Ebene sichtbar ist, 
können der Stützvektor und die beiden Spannvektoren über eine lineare 
Regression entlang der xP- und entlang der yP-Koordinate des Tiefenbil- 
des mit einem Least-Square-Schätzer mit RANSAC [45] geschätzt werden. 
Es ergeben sich die beiden Steigungen der Ebene v, = AZ“/ax* und 
v, = AZ*/ay«. Nach einer zeitlichen Differenzierung und Anwenden von 
Gl. (2.11) ergibt sich 


b, = —w,(1 + v2) und Vy = —wy(1 + va). (5.9) 
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Die zugehörige Jacobi-Matrix J, hat somit lediglich einen Eintrag bei 
w, und wy. Die vollständige Bild-Jacobi-Matrix gemäß Gl. (2.10) ergibt 
sich als Komposition der Jacobi-Matrizen der einzelnen Merkmale. Die 
schematische Form dieser Matrix ist 


jeep IT 


Je Josz | Pore | ere 


0 0 
ns SVZ 
|), Tora. (5.10) 


0 0 Jy. 0 


5.2.3 Regelsystem 


Da die Jacobi-Matrix aufgrund der getroffenen Annahmen diinn besetzt 
ist und die Merkmale unterschiedlich sensitiv sind, wird ein entkoppeln- 
der Ansatz nach [173] fiir die bildbasierte Regelung verwendet. Die Struk- 
tur der Jacobi-Matrix in Gl. (5.10) erlaubt es, Bewegungen der Kamera in 
X* bzw. Y*-Richtung, die nicht durch das Punktmerkmal [23 A Y, = 
induziert werden, auszugleichen, und den optimalen Schritt in der X k_ 
bzw. Y*-Richtung separat zu berechnen. Beispielsweise führt eine Be- 
wegung entlang der Z*-Richtung für den Fall eines nicht zentrierten 
Objektes dazu, dass der Mittelpunkt des Objektes sich dem Bildmit- 
telpunkt nähert. Diese Bewegung wird mithilfe von J, ausgeglichen. 
Dadurch wird verhindert, dass sich das Objekt aus dem Blickfeld der 
Kamera bewegt [173]. Dieses Vorgehen impliziert ferner unterschiedliche 
Schrittweiten A, = [Axy Avz Auxyı Auz] - Das vollständige Regelsystem 
mit Kantenmerkmalen ist in Abb. 5.6 gegeben. 

Da bei der Verwendung der langen Kanten als Merkmal die Jacobi- 
Matrix J, im Optimum aufgrund der Parallelität der Kanten singular 
ist, kann der Gradient bzgl. der Neigung [w,, wy]? nicht tiber die Pseudo- 
inverse berechnet werden (vgl. [16]). Daher wird die Orientierung des 
Ankers verwendet, damit sich die Kamera ausschließlich um Achsen, die 
orthogonal zur Symmetrieachse des Ankers sind, drehen kann. Es ergibt 
sich fiir die Winkelgeschwindigkeit 


Wy | kw R _ 1 
| | = Ay “Ty? mitw = ate wah l (5.11) 
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wobei k das korrekte Vorzeichen anzeigt, welches aus %4 und J „x ab- 
leitbar ist. Bei der Verwendung der Bodenebene dagegen ist [w,, w,]" = 
Aush anwendbar. 

Um große Schritte bei der Regelung zu vermeiden, werden Bewegun- 
gen von mehr als 5 cm bzw. 0,05 rad abgeschnitten. 


5.2.4 Adaptiver digitaler Zoom 


Während der bildbasierten Regelung variiert die Größe des Objektes 
stark. Objekte mit ungünstiger Größe können dann möglicherweise auf- 
grund der Augmentierung (s. Abschnitt 5.1.3) oder der Unschärfe nach 
dem Heruntertasten nicht mehr durch das U-Net erkannt werden. Bei- 
spielsweise kann zu Beginn der Regelung der Abstand zum Objekt 23 
relativ groß sein, um einen möglichst großen Bereich nach Ankern abzu- 
suchen. Dies kann dazu führen, dass das Objekt im Bild (vgl. Gl. (2.8)) 
zu klein für die Detektion mittels U-Net ist. 

Daher ist eine Anpassung der Größe des Objektes erforderlich, die 
entweder durch die Änderung des Abstandes Zhi oder durch digitalen 
Zoom erreicht wird. Da Ersteres eine Bewegung der Kamera impliziert, 
wird im Folgenden der digitale Zoom verwendet, um den Bereich, in 
dem das System skaleninvariant ist, zu vergrößern. Hierfür wird ange- 
nommen, dass die Auflösung des Kamerabildes größer ist als die Eingabe 
in das U-Net. 

Das Verfahren wird dann angewendet, wenn im Eingabebild kein 
Ankerobjekt identifiziert wird (s. Abschnitt 5.1.5). Bei zu kleinen Objekten 
im Bild wird jedoch die Ankermaske oft hinreichend genau geschätzt, 
während einzelne Komponenten nicht erkannt werden (s. Abschnitt 6.1.3). 
Bei zu großen Objekten wird die Ankermaske nur teilweise erkannt, 
da das rezeptive Feld des neuronalen Netzes zu klein ist [109]. Dies 
ermöglicht es, die ungefähre Position [ü,,ö,]' und die Größe 5, des 
Ankers im Bild abzuschätzen. 

Bei dem hier vorgestellten digitalen Zoom wird iterativ ein Zoomfaktor 
r, bestimmt. Ist dieser kleiner als 1, wird statt des gesamten Kamerabildes 
nur ein Ausschnitt des Bildes um den Punkt [ü,, ĉa]! heruntergetastet 
und als Eingabe für das U-Net verwendet. Dies führt dazu, dass das 
Objekt relativ zum Gesamtbild größer wird. Gilt dagegen r, > 1, werden 
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Abbildung 5.6 Regelsystem. 
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Nullen an das Kamerabild angehängt, bis die Höhe und Breite des Bildes 
um den Faktor r, größer ist. Das anschließende Heruntertasten führt 
dazu, dass der potentielle Anker im Bild kleiner wird. 

Beginnend mit dem Zoomfaktor r, = 1 wird dieser via gleitendem 
Mittelwert mit Momentum a, folgendermaßen aktualisiert 


0,1 
r, + a,r, + (1 — a) 4| =. (5.12) 
SA 


Dies führt dazu, dass die Objektgröße im Bild gegen den Wert 0,1 kon- 
vergiert. Nach jeder Aktualisierung von r, wird das von der Kamera 
aufgenommene Bild um Nullen erweitert bzw. zugeschnitten, um die 
Seitenlängen um den Faktor r, zu skalieren. Anschließend wird das Bild 
auf die Eingabegröße des U-Net skaliert, segmentiert und auf vorhan- 
dene Anker überprüft. Falls kein Anker gefunden wird, wird r, erneut 
aktualisiert. 
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In diesem Kapitel werden das U-Net und der bildbasierte Regler aus 
Kapitel5 untersucht. Im ersten Teil (s. Abschnitt 6.1) werden Augmentie- 
rungsverfahren und Erweiterungen fiir das U-Net untersucht und Impli- 
kationen hinsichtlich der bildbasierten Regelung diskutiert. Im zweiten 
Teil (Abschnitt 6.2) wird der bildbasierte Regler evaluiert. Hierfiir werden 
simulativ Voruntersuchungen hinsichtlich der modellbasierten Objekter- 
kennung aus Abschnitt 5.1.5 und des digitalen Zooms aus Abschnitt 5.2.4 
durchgeführt. Anschließend wird der Regler bei unterschiedlichen Stör- 
einflüssen untersucht. Am Ende des zweiten Teils wird das vorgestellte 
Reglerkonzept in einer realen Anwendung evaluiert. 


6.1 Ergebnisse der Ankersegmentierung 


In diesem Abschnitt werden die Augmentierungsverfahren und Erwei- 
terungen des U-Net aus Abschnitt5.1 evaluiert. Hierfür wird in Ab- 
schnitt 6.1.1 die Simulationsumgebung erläutert. Die Verfahren werden in 
verschiedenen Kombinationen danach in Abschnitt 6.1.2 verglichen. An- 
schließend werden die Eigenschaften der gefundenen Methode und de- 
ren Einfluss auf die bildbasierte Regelung diskutiert (s. Abschnitt 6.1.3). 


6.1.1 Evaluationsumgebung 


Für die Bewertung von Augmentierung und Erweiterungen wird jeweils 
ein CNN von Grund auf mit dem Datensatz aus Abschnitt5.1.2 trainiert. 
Jedes Einzelexperiment wird hierbei dreimal wiederholt und das Ergeb- 
nis wird gemittelt. Die Größe der Eingabebilder in das U-Net beträgt 
224 x 224 Pixel. Bei jedem Training wird das jeweilige U-Net für 100 
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Durchläufe mit jeweils 128 Iterationen mit dem NADAM-Optimierer 
trainiert. Für die Chargengröße gilt Nz = 16 aufgrund der Größe der Bil- 
der und des Netzes. Ferner wird ein kosinusartiger Abfall der Lernrate 
mit einer initialen Lernrate von 10”? verwendet. Neben dem genera- 
lisierten Sörensen-Dice-Koeffizienten wird der Jaccard-Koeffizient der 
einzelnen Komponentenklassen als Vergleichsmetrik verwendet. Als Ak- 
tivierung der letzten Schicht wird standardmäßig die Sigmoid-Funktion 
verwendet. Das Verfahren ist in python mithilfe der tensorflow 
2 . 0-Bibliothek implementiert. 

Um den Einfluss der Augmentierung zu untersuchen, wird zwischen 
vier verschiedenen Augmentierungsgraden jeweils mit und ohne Hinter- 
grundaugmentierung unterschieden. Mit Hintergrundaugmentierung 
wird mit der Wahrscheinlichkeit 0,5 ein zufälliger Hintergrund ver- 
wendet, ansonsten bleibt das Eingabebild unverändert. Die verschie- 
denen Grade verwenden die Stufen der Augmentierungskaskade aus 
Abschnitt 5.1.3. Bei Grad 0, der untersten Stufe, wird keine Augmen- 
tierung verwendet. Beim ersten Grad wird eine Basisaugmentierung 
aus Spiegelung, affinen Transformationen und Cutout verwendet. Für 
Grad I wird Grad I um die letzte Stufe der Augmentierungskaskade 
(Gaußfilterung, Helligkeitsänderung, ...) erweitert. Für den letzten Grad 
(Grad III) wird die Cutout-Stufe um zwei eigene Verfahren erweitert, 
bei denen einzelne Komponenten des Ankers verdunkelt oder mehrere 
kleinere Rechtecke statt eines großen im Bild verdeckt werden. Bei allen 
Cutout-Verfahren wird die Grundwahrheit nicht verändert. Diese wird 
dazu benutzt, eine geeignete Position des Rechtecks auszuwählen, so- 
dass immer ein Teil des Ankers in diesen Rechtecken liegt. Damit sollen 
mögliche Verdeckungen simuliert werden. 

Mit dem sich so ergebenden besten Augmentierungsgrad werden 
die Erweiterungen für das U-Net beginnend mit den Aktivierungen 
untersucht. Anschließend wird der Einfluss von Kanteninformationen 
analysiert. 


6.1.2 Vergleich der Verfahren 


Die Testergebnisse für die unterschiedlichen Grade der Augmentierung 
mit und ohne Hintergrundaugmentierung (Hgrd.) sind in Tab. 6.1 ab- 
gebildet. Diese zeigt den mittleren Jaccard-Koeffizienten der einzelnen 
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Ankerkomponenten sowie der Ankermaske und den mittleren gSDK 
sowie dessen Standardabweichung (std). Durch das Weglassen teilver- 
deckter Anker beim Trainings- und Testdatensatz verbessern sich die 
Ergebnisse im Vergleich zu [186]. 


Tabelle 6.1 Die Ergebnisse für die unterschiedlichen Grade der Augmentierung. 


Herd. 


nein 


ja 


Grad 


0 I I M 


0 I II IH 


Anker 
Kom. 
Welle 
Ritzel 


0,724 0,864 0,869 0,869 
0,370 0,679 0,710 0,704 
0,237 0,529 0,554 0,548 
0,203 0,339 0,365 0,363 


0,869 0,950 0,945 0,949 
0,684 0,733 0,742 0,740 
0,543 0,666 0,656 0,673 
0,325 0,483 0,503 0,507 


gSDK 
std 


0,364 0,193 0,185 0,184 
0,015 0,006 0,006 0,001 


0,187 0,096 0,096 0,092 
0,003 0,002 0,002 0,003 


Die deutlichsten Verbesserungen können durch die Verwendung der 
Hintergrundaugmentierung und durch die affinen Transformationen 
erzielt werden. Für beide Verfahren wird der gSDK um ca. 50 % verringert. 
Die Verbesserung durch Stufe II und Stufe III ist unter Bezugnahme zur 
gemessenen Standardabweichung gering, aber vorhanden. Insgesamt 
liefert die Augmentierung des Grades III mit Hintergrundaugmentierung 
die besten Ergebnisse. Daher wird diese Augmentierungsstrategie im 
Folgenden verwendet. 

Die Testergebnisse für die verschiedenen Aktivierungen und Kanten- 
informationen sind Tab. 6.2 dargestellt. Die softmax-basierte Aktivierung 
(MSM) führt in allen Fällen zu einer Verschlechterung des gSDK im Be- 
reich von 50%, was v. a. auf die schlechte Konvergenzeigenschaft der 
Ankerkomponente Welle zurückzuführen ist. Dies ist in der deutlich 
höheren Standardabweichung des gSDK ebenfalls ablesbar. Gegenüber 
der einfachen sigmoid-Aktivierung (Sig) verschlechtert sich der gSDK 
der multiplikativen sigmoid-Aktivierung (MSig) um ca. 2,3%. Trotz der 
Beseitigung von logischen Widersprüchen führen die Aktivierungen, die 
diese herbeiführen, zu einer Verschlechterung des gSDK. Das U-Net ist 
somit in der Lage, die logischen Zusammenhänge während des Trainings 
selbständig zu erlernen. 
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Tabelle 6.2 Die Ergebnisse für die verschiedenen Aktivierungen des U-Net und bei der 


Verwendung von Kanteninformationen via Addition (A) und Konkatenation (K). 


Kante 


A 


K 


Aktiv. 


Sig MSig MSM 


Sig MSig MSM 


Sig MSig MSM 


Anker 
Kom. 
Welle 
Ritzel 


0,949 0,947 0,939 
0,740 0,740 0,733 
0,673 0,667 0,092 
0,507 0,500 0,467 


0,948 0,947 0,944 
0,748 0,755 0,738 
0,663 0,669 0,093 
0,496 0,494 0,468 


0,951 0,948 0,944 
0,750 0,748 0,740 
0,687 0,676 0,094 
0,498 0,504 0,470 


gSDK 
std 


0,092 0,096 0,145 
0,002 0,001 0,008 


0,095 0,094 0,141 
0,010 0,005 0,007 


0,090 0,093 0,138 
0,004 0,002 0,006 


Zusätzliche Kanteninformationen können die Segmentierung verbes- 
sern, jedoch führt eine Addition zu einer deutlich höheren Standard- 
abweichung des Ergebnisses. Bei einer Konkatenierung dagegen ist die 
Standardabweichung geringer und die Verbesserung des gSDK ist mit ca. 
2,7 % gegenüber 0,7 % bei Addition eindeutiger. Diese Beobachtungen 
kulminieren darin, dass eine sigmoid-Aktivierung mit einer Kantenkon- 
katenierung die besten Ergebnisse liefert. 
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Trainingsdurchlauf 


Abbildung 6.1 Jaccard-Koeffizient der Validierungsdaten während des Trainings. 


6.1.3 Eigenschaften der Segmentierung 


Mit den Ergebnissen aus Abschnitt 6.1.2 wird nun das U-Net 7.500 Durch- 
läufe trainiert. Der resultierende gSDK beträgt 0,0656 und die Jaccard- 
Koeffizienten sind 0,972 (A), 0,796 (K), 0,789 (W) und 0,811 (R). Auffal- 
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lend beim Training ist, dass der Jaccard-Koeffizient der Ankermaske P4 
und der Kommutatormaske Px sehr schnell in Sättigung gehen, während 
sich der Jaccard-Koeffizient von Ritzel und Welle näherungsweise linear 
mit der Anzahl der Durchläufe ab etwa dem 500. Durchlauf vergrößert 
(s. Abb. 6.1). 

Im Folgenden werden die Invarianzeigenschaften der Segmentierung 
untersucht. Hierzu werden der gSDK und die Jaccard-Koeffizienten für 
unterschiedliche Größen und Orientierungen des Ankers sowie für un- 
terschiedlichen Kontrast und Helligkeit des Eingabebildes untersucht. 
Dabei werden für jeden Wert insg. 256 Bilder aus dem Eingabebild er- 
zeugt, die sich lediglich hinsichtlich einer Translation unterscheiden. Für 
Kontrast, Helligkeit und Orientierung wird das Bild derart skaliert, dass 
die normierte Ankergröße sa = 0,06 ist. Die Werte für gSDK und Jaccard- 
Koeffizienten weichen im Vergleich zu den oben genannten Ergebnissen 
ab, da nur ein einziges Bild untersucht wird. 

Das Ergebnis für die Ankergröße und die Helligkeit ist in Abb. 6.2 
abgebildet. Die senkrechten gepunkteten grauen Linien entsprechen 
den Grenzen der jeweiligen Operation bei der Augmentierung. In bei- 
den Fällen ist das Segmentierungsergebnis innerhalb dieser Grenzen 
näherungsweise konstant. Dies entspricht den Erwartungen. 

Übersteigt die Ankergröße den Wert von 0,2 steigt der gSDK, da die 
Größe das rezeptive Feld des U-Net übersteigt, infolgedessen wird der 
Anker nur in Teilen bzw. gar nicht erkannt. Bei sinkender Ankergröße 
fällt der Jaccard-Koeffizient von Kommutator, Welle und Ritzel steil ab, 
sobald die untere Grenze von 0,04 unterschritten wird. Die Ankermaske 
kann weitestgehend stabil detektiert werden. Jedoch führt ein zweites 
Objekt im Bild zu einer Fehldetektion, die den Jaccard-Koeffizienten 
negativ beeinflusst, die aber durch ein Modell wie das aus Abschnitt 5.1.5 
entfernt werden kann. Insgesamt kann die Ankermaske P, auch bei 
Werten unter 0,005 detektiert werden, was eine Positionsbestimmung 
und die Schätzung der ungefähren Größe des Ankers ermöglicht. 
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Abbildung 6.2 Segmentierungsvarianz bzgl. Größe des Ankers und Helligkeit. Mit gesamt 
ist der mittlere Jaccard-Koeffizient gemeint, der mit 1 — gSDK korrespondiert. 


Trotz des geringen Augmentierungsbereiches bei der Helligkeit kann 
der Anker über einen Bereich von 0,03 bis 10 gut erkannt werden. Wie 
die in den Graphen eingefügten Bilder zeigen, kann der Anker auch 


134 


6.1 Ergebnisse der Ankersegmentierung 


bei extrem dunklen und stark überbelichteten Bildern erkannt werden. 
Aus Abb. 6.3 kann ein ähnliches Verhalten für den Kontrast abgeleitet 
werden. Ebenso zeigt Abb. 6.3, dass das trainierte U-Net weitestgehend 
rotationsinvariant ist. 
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Abbildung 6.3 Segmentierungsvarianz bzgl. Orientierung des Ankers und Kontrast. 
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Insgesamt zeigt das U-Net Eigenschaften bzgl. der Invarianz, die die 
Erwartungen gemäß der Augmentierung übersteigen. Für die Bildma- 
nipulationen, die mit Augmentierungsgrad II hinzu kommen (s. Ab- 
schnitt 6.1.2), ist die Segmentierung bis in Regionen, bei denen es für 
das menschliche Auge schwierig wird, weitestgehend stabil (s. Abb. 6.2). 
Bei den affinen Transformationen behält die Segmentierung innerhalb 
der vordefinierten Grenzen seine Invarianz. Bei einer Verschlechterung 
der Segmentierung ist die Schätzung der Ankermaske P, im Gegensatz 
zu den anderen Komponenten deutlich robuster. Dies rechtfertigt die 
Definition der Ankerklassen nach Abschnitt 5.1.2 und kann bei der bild- 
basierten Regelung, falls der Anker in einer Aufnahme nicht erkannt 
wird, einen entscheidenden Vorteil mit sich bringen, da eine ungefähre 
Position und Größe des Ankers ermittelt werden kann, die als Grundlage 
für den in Abschnitt 5.2.4 vorgestellten digitalen Zoom dient. 


6.2 Evaluation des Reglers 


In diesem Abschnitt wird der Regler mit seinen Erweiterungen unter- 
sucht. Nachdem in Abschnitt 6.2.1 die Simulationsumgebung beschrie- 
ben wird, wird in Abschnitt 6.2.2 das Verhalten des Merkmalsextrak- 
tors thematisiert, wenn die Ausgabe des U-Net mit den in Kapitel 5 
beschriebenen Erweiterungen für die Segmentierung verwendet wird. 
Anschließend wird die Robustheit des Reglers simulativ gegenüber der 
Anfangsposition (s. Abschnitt 6.2.3), gegenüber stochastischen Störun- 
gen (s. Abschnitt 6.2.4) und beim Auftreten mehrerer Objekte untersucht 
(s. Abschnitt 6.2.5). Anschließend wird in Abschnitt 6.2.6 der Regler in 
einem realen System evaluiert. 


6.2.1 Simulationsumgebung 


Das System wird mit CoppeliaSim simuliert. Hierzu wird als Ro- 
boterarm ein UR-10 mit einer Kinect-Tiefenbildkamera an dessen 
Endeffektor verwendet. Der Roboter wird über diepython remote 
API gesteuert und die Implementierung des U-Net erfolgt gemäß Ab- 
schnitt 6.1.1. Die Auflösung der Kinect beträgt 960 x 960 Pixel nach 
dem Zuschneiden zum Quadrat. Die Parameter der Kameramatrix Cx 
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sind aus dem Simulationsaufbau extrahierbar und die Kamera hat eine 
unendliche Schärfentiefe. Der Tiefensensor liefert für jedes Bildpixel eine 
fehlerfreie Tiefe. Die Abtastzeit der Simulation beträgt 50 ms. 


Pr 7 MAOS Pa > a <. ə 
(a) Gesamtaufbau (b) Modelle der Anker 
Abbildung 6.4 In der Simulation befinden sich der Roboter und der Anker auf einem 


quadratischen Tisch mit der Seitenlänge 1,1 m. In der rechten Grafik sind beide Modelle 
der Anker dargestellt. Der rechte Anker wird als Grundwahrheit genutzt. 


Die Bilder der Kamera werden für die Eingabe in das U-Net auf 
336 x 336 Pixel heruntergetastet. Dies führt dazu, dass sich die Reichweite 
der Detektierbarkeit zu kleineren Ankergrößen verschiebt, da das U-Net 
mit Bildern der Auflösung 224 x 224 trainiert wird. Das U-Net wurde ge- 
mäß Abschnitt 6.1.3 trainiert. In der Simulation wird eine Zusammenset- 
zung mehrerer Zylinder mit geeigneter Textur als Anker verwendet. Als 
Grundwahrheit werden die Zylinder gemäß der Konvention aus Abb. 5.2 
eingefärbt. Durch geeignete Farbfilter ist die Grundwahrheit direkt aus 
dem aufgenommenen Bild ableitbar. Beide Anker haben dieselben Maße. 
Der Gesamtaufbau und die beiden verwendeten Ankermodelle sind in 
Abb. 6.4 illustriert. 


6.2.2 Ankermodell und digitaler Zoom 


In diesem Abschnitt wird die modellbasierte Segmentierung (s. Abschnitt 
5.1.5) und der digitale Zoom (s. Abschnitt 5.2.4) simulativ untersucht. 


Die Koordinatenangaben werden in Metern angeben. Hierfür wird mit 
wW 
obj 


[0,5; 0,5; 0]? auf der Tischplatte befindet, gefahren, die aus den folgenden 
insg. 240 Schritten besteht: 


der Kamera eine Trajektorie um den Anker, der sich am Punkt X 
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= Beginnend bei X“) = [0,5; 0,5, 0,35] entfernt sich die Kamera 
vom Objekt bis zum Punkt X(W = [0,5; 0,5; 1,05]. Anschließend 
nähert sich die Kamera bis auf X(W) = [0,5;0,5;0,1]" dem An- 
ker, um anschließend zu seiner Ausgangsposition zurückzufahren 
(Schritt 0 bis 48). Hierdurch wird die Größe des Ankers variiert, 
was sich insbesondere für das Testen des digitalen Zooms eignet. 


Die Kamera dreht sich 360° um die z-Achse, um die Orientierung 
des Ankers im Bild zu beeinflussen (Schritt 48 bis 96). 


Die Kamera wird auf den Punkt XW) = [0,0; 0,0; 0,15]! bewegt 
(Schritt 96 bis 120) und fährt anschließend einen 3/4-Kreis, der par- 
allel zur Tischplattenebene ist, um den Anker (Schritt 120 bis 216) 
und danach einen !/4-Kreis senkrecht zur Bodenebene, um wieder 
zur Ausgangsposition der Trajektorie zurückzukehren (Schritt 216 
bis 240). Hierbei werden die problematischen Positionen angefah- 
ren, für die das Modell aufgrund eines verdeckten Kommutators 
keinen Anker erkennen kann. 


Für die Versuche werden die geschätzten Merkmale Position, Größe, 
Neigung bzgl. Bodenplatte, Neigung als Kantenmerkmal und Orientie- 
rung mit der beschriebenen Grundwahrheit (GW) verglichen. Die Merk- 
male werden mit der Rohausgabe des U-Net (ROH), einem einfachen 
Modell für die Erkennung des Ankers anhand der Komponenten (EM) 
und dem vollständigen Modell gemäß Abschnitt 5.1.5 (VM) verglichen. 
Letzteres wird zusätzlich mit dem digitalen Zoom aus Abschnitt 5.2.4 
untersucht (VMZ). Die geschätzten Merkmale sind in Abb. 6.5 dargestellt. 

Bei der Verwendung der Modelle treten bei der Schätzung der Merk- 
malsparameter Ausfälle auf, die auf das Nicht-Erkennen eines Objektes 
als Anker zurückzuführen sind. Ferner werden Schätzungen mit starker 
Abweichungen der Position und der Größe als Ausfall gewertet. Hieraus 
ergibt sich für ROH eine Ausfallrate von 4,17 %, bei EM 28,75 %, bei VM 
22,50 % und bei VMZ 11,25 %. Zwar ist die Ausfallrate bei der Rohausga- 
be am geringsten, jedoch führen Fehldetektionen zu starken Ausreißern 
bei den Merkmalen, die nicht durch das Modell unterdrückt werden und 
somit direkt in die Regelung einfließen. Weitere negative Eigenschaften 
der Rohausgabe treten beim Vorhandensein mehrerer Objekte auf (s. 
Abschnitt 6.2.5). Bei der Verwendung eines Modells treten keine Ausfälle 
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auf, die auf fehlerhafte Größen- oder Positionsschätzung zurückzufüh- 
ren sind. Ferner werden keine Merkmale geschätzt, falls kein Anker im 
Bild gefunden wird. Je detaillierter das Modell, desto geringer ist die 
Ausfallrate. 
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(c) Orientierung 
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(d) Ebenenneigung Ñy- 


A 
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Abbildung 6.5 Geschätzte Parameter für die Grundwahrheit (GW), die Rohausgabe 
(ROH), das einfache Modell (EM) und das vollständige Modell mit (VMZ) bzw. ohne 


Zoom (VM). 


Die Ausfälle bei den Modellen treten u. a. dann auf, wenn die optische 
Achse parallel zur Symmetrieachse des Ankers steht und der Kommu- 
tator verdeckt ist. Dies ist zwischen Schritt 110 und 150 der Fall. Ein 
fälschlich detektierter Anker bei VZM führt in diesem Bereich zu ei- 
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(e) Ebenenneigung vy. 


Schritt 
(f) Neigung über Kanten. 
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nem Ausreißer der geschätzten Merkmale. Weitere Ausfälle der Modelle 
sind bei ungünstigen Ankergrößen zu beobachten (s. Abb. 6.5(b)). Bei 
zu kleinen Objektgrößen, d.h. s, < 10-2, wird ein Objekt nur durch 
ROH und VMZ erkannt. Da VM und EM in diesem Bereich nichts er- 
kennen, werden in der Rohausgabe des U-Net nicht alle notwendigen 
Ankerkomponenten erkannt, weswegen formal kein Anker im Bild sicht- 
bar ist. Durch den digitalen Zoom kann der Anker derart vergrößert 
werden, dass der Anker mit allen Komponenten erkannt wird. Bei zu 
großen Objekten kann der digitale Zoom bis zu einem gewissen Grad die 
Detektion des Ankers aufrechterhalten, aber er versagt, sobald ROH das 
Objekt nur noch teilweise erkennt. Diese Beobachtung deckt sich mit den 
Ergebnissen aus Abschnitt 6.1.3. In der Praxis werden diese Größen nur 
beim Unterschreiten des technisch bedingten Mindestabstandes erreicht. 

Insgesamt hat VM eine höhere Toleranz gegenüber der Perspektive 
als EM, was zu weniger Ausfällen führt. Hintergrund ist, dass durch die 
Änderung des Bildes nach einem Schritt in manchen Fällen bestimmte 
Komponenten nicht erkannt werden. Dies ist aber durch das Modell nach 
Abschnitt 5.1.5 korrigierbar. 

Außerhalb dieser beiden kritischen Bereiche unterscheiden sich die 
Schätzungen der Ankerparameter bis auf die oben beschriebenen Aus- 
reißer von ROH kaum, da die erkannten Anker ähnlich sind. 

Die geschätzten Ebenenneigungen des Tisches sind für alle untersuch- 
ten Fälle nahezu identisch, da die Schätzung weitestgehend unabhän- 
gig von der Erkennung des Ankers ist. Bei höheren Neigungen ist die 
Schätzung verrauschter, da der Anker einen größeren Teil des Tisches 
verdeckt. 

Da der Anker parallel zur X-Achse orientiert und rotationssymme- 
trisch ist, ist das Kantenmerkmal unabhängig von der Tischneigung v, 
und korreliert bis auf einige Ausreißer mit dem Betrag der Neigung 
v,. Zwar wird das Kantenmerkmal der Rotationssymmetrie des Ankers 
gerecht, aber das Merkmal ist deutlich verrauschter und abhängig vom 
detektierten Anker, während die Neigung der Tischplatte unabhängig 
davon ist. Eingedenk der höheren Ausfallraten bei ungünstiger Perspek- 
tive, die insbesondere bei starker Neigung gegeben ist, ist die Regelung 
über die Neigung der Tischebene vielversprechender. 
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6.2.3 Einfluss gegenüber der Initialposition 


Im Folgenden wird der Regler untersucht. Zunächst wird in diesem Ab- 
schnitt der Einfluss der Initialposition des Reglers analysiert. Hierbei 
wird das vollständige Modell mit digitalen Zoom (VMZ) für die Segmen- 
tierung verwendet. Die Regelung mithilfe der Kantenmerkmale k, wird 
mit der Regelung mittels Neigungen [v,,, v,|' der Tischebene verglichen. 

Die verschiedenen Startpositionen befinden sich bei 30°, 60° und 90° 
Elevation bzgl. des Ankers und bei 45° Schritten des Azimuthwinkels 
in einer Entfernung von 0,5m zum Anker, falls diese Position für den 
Roboterarm möglich ist. Die Ankerposition ist wie in Abschnitt 6.2.2. 
Die Regelung wird abgebrochen, falls ein gewichtetes Fehlermaß einen 
Schwellwert unterschreitet. Die Ergebnisse sind in Abb. 6.6 dargestellt. 
Die leicht unterschiedlichen Anfangspositionen in den Diagrammen 
resultieren aus dem Einschwingvorgang und dem ersten Schritt des 
Reglers. 

Der Hauptunterschied beider Regelungsverfahren besteht darin, dass 
sich die möglichen Zielpositionen beim Kantenmerkmal auf einem Kreis 
befinden, während beim Ebenenmerkmal die Zielposition ein einziger 
Punkt ist. Das Ebenenmerkmal ist damit nur anwendbar, falls die Sym- 
metrieachse des Ankers parallel zur Tischebene ist. 

Gemäß Abb. 6.6 sind die Trajektorien des Ebenenmerkmals glatt und 
der Positionierungsfehler dW konvergiert in 10 Schritten für 60° und 90° 
Elevation und in max. 20 Schritten bei 30°. Dagegen haben die Trajektori- 
en des Kantenmerkmals einen zackenförmigen Verlauf. Dieser ist auf die 
verrauschte Schätzung des Kantenmkermals (s. Abb. 6.5) zurückzufüh- 
ren. Bei der Mehrheit der Startpositionen konvergiert der Regler jedoch 
in einer ähnlichen Geschwindigkeit und bei 30° Elevation teilweise sogar 
schneller. Die Ausreißer treten in den Fällen auf, in denen zu Beginn 
der Kommutator des Ankers nicht sichtbar ist oder es aufgrund des 
flachen Elevationswinkels zu einer Kollision mit der Tischplatte kommt. 
Letzteres hat zu einem Ausfall geführt, bei dem der Regler sich nicht 
wieder in eine geeignete Position manövrieren konnte. Daher sind nicht 
alle Positionen auf dem Kreis sinnvolle Zielpunkte. 
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Abbildung 6.6 Trajektorien und Distanz dW zur gesuchten Position (rot) bei verschiedenen 
Startpositionen. Farben gemäß dem Elevationswinkel der Startposition (grün: 30°, blau: 
60°, gelb: 90°) bzgl. des Ankers (schwarzer Punkt). 


Da die Regelung mit dem Ebenenmerkmal dazu führt, dass die opti- 
sche Achse des Kamerasystems im Optimum orthogonal zur Tischplatte 
steht, wird eine Kollision mit dem Tisch automatisch vermieden. Au- 
ßerdem kann der Regler zu Beginn, ohne einen Anker zu detektieren, 
die Kamera zu einem höheren Elevationswinkel regeln. Somit werden 
ungünstige Perspektiven auf den Anker implizit vermieden. Ferner kann 
das Kantenmerkmal für ungünstige Bauformen des Ankers scheitern. 
Dies passiert insbesondere dann, wenn der Kommutator mit dem di- 


ckeren Korpus des Ankers aus der Perspektive der Kamera eine Flucht 
bildet. 


143 


6 Evaluation der CNNs für die robotergestützte Inspektion 


Insgesamt zeigt die Nutzung der Ebenenmerkmale deutliche Vorteile 
gegentiber den Kantenmerkmalen. Daher wird im Folgenden mithilfe 
der geschätzten Bodenebene geregelt. Das Kantenmerkmal hat allerdings 
ein berechtigtes Nischendasein, falls die Annahme der parallelen Boden- 
ebene nicht gegeben ist. 


6.2.4 Einfluss von Rauschen 


In diesem Abschnitt wird die Robustheit des Reglers gegenüber Rau- 
schen betrachtet, welches künstlich auf die Kameraparameter, die Ka- 
meraposition und die geschätzten Merkmale gegeben wird. Verglichen 
wird die Grundwahrheit (GW) mit dem vollständigen Modell mit digita- 
len Zoom (VMZ) bei unterschiedlichen Rauschpegeln. Bei divergenten 
Reglern wird die Regelung nach 30 Schritten abgebrochen. Für die Ka- 
meraparameter und die geschätzten Merkmale wird eine gleichverteilte 
Zufallsvariable auf die geschätzten Werte multipliziert. Dabei werden 
drei unterschiedlich starke Stufen verwendet, sodass der maximale Feh- 
ler 10 % (RC1, RM1), 20 % (RC2, RM2) oder 30 % (RC3, RM3) des wahren 
Wertes beträgt. Für die Kameraposition wird ein additiver mittelwertfrei- 
er normalverteilter Fehler ebenfalls in drei verschiedenen Ausprägungen 
simuliert. Die Standardabweichungen betragen 0,5cm und 0,3° (RP1), 
1,5 cm und 0,9° (RP2) sowie 5,0 cm und 2,8° (RP3). Die Startposition der 
Kamera ist im Abstand von 0,5 m zum Anker bei einem Elevationswinkel 
von 60°. 
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Abbildung 6.7 Fehler d™ und geschätzte Ankergröße 5, bei unterschiedlich starkem 
Rauschen auf den Merkmalsvektor m und die Kameramatrix Cx. 


Die Ergebnisse für das Rauschen auf den Merkmalsvektor m und die 
Kameramatrix Cx sind in Abb. 6.7 dargestellt. Für beide Varianten kon- 
vergiert der Regler bei allen Rauschgraden. Das Rauschen führt jeweils 
zu einem Fehler in der Merkmalsschätzung. Während ein Rauschen auf 
den Merkmalsvektor diesen direkt und über die Jacobi-Matrix (vgl. Ab- 
schnitt 5.2.2) indirekt beeinflusst, wird über ein Rauschen auf Cx die 
Transformation von Sensorvariablen in die normierten Bildkoordina- 
ten verfälscht. Je größer der Merkmalsparameter, desto größer ist das 
Rauschen. Daher ist der Einfluss auf die geschätzte Größe, für die im 
Optimum s% # 0 gilt, am größten. Der destruktive Einfluss des Rau- 
schens auf den Merkmalsvektor führt hier zu einem kleinen Fehler, der 
die Konvergenz in der Nähe des Optimums verlangsamt. Dagegen führt 
das Rauschen auf die Kameraparameter zu einem systematischen Fehler, 
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wodurch die Endposition der Kamera am Ende wenige Zentimeter vom 
gesuchten Optimum entfernt ist. Insgesamt treten beide Fehler erst bei 
enorm großen relativen Fehlern von über 20 % auf. Somit ist der Regler 
weitestgehend robust gegenüber Fehlern bei der Kamerakalibrierung 
und gegenüber fehlerhaften Schätzungen des Merkmalsvektors, die bspw. 
bei Fehlern infolge ungenauer Segmentierung auftreten. 
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XW/m YW/m (b) Positionsfehler dW. 


(a) Trajektorie. 


Abbildung 6.8 Trajektorie und Positionsfehler d bei verrauschter Kameraposition. 


Eine verrauschte Kameraposition beeinflusst die Positionsbestimmung 
der Kamera durch den Regler, da dies gleichbedeutend mit einem Be- 
wegungsvektor [v$ (t), w(t)]! ist, der eine Zufallskomponente enthält. 
Ist der hierdurch verursachte Fehler bzgl. der Merkmale größer als die 
Fehlertoleranz des Reglers, kommt es zu nicht konvergierenden Bewe- 
gungen um die Zielposition, die nur durch Zufall in den Toleranzbereich 
des Zielpunktes münden. Dieser Effekt ist in Abb. 6.8 zu beobachten. 
Die nicht konvergierenden Bewegungen finden in einem Bereich um die 
Zielposition statt, der sich näherungsweise als Kugel mit dem Radius 
der dreifachen Standardabweichung des Positionsrauschen bewegt. Dies 
sind bei R3 15cm. Insgesamt ist der Regler jedoch robust gegenüber 
diesem Rauschtyp, sofern der Fehler nicht in derselben Größenordnung 
wie der Toleranzbereich für die Zielposition ist. 
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6.2.5 Multiple Objekte 


In diesem Abschnitt wird der Fall betrachtet, dass sich mehrere Anker 
in der Szene befinden. Hierfiir wird der Regler mit (VM) und ohne 
(ROH) Ankermodell verglichen. Die Abstande zum Zielobjekt in diesem 
Versuch machen keinen digitalen Zoom erforderlich. In der Szene werden 
drei Anker in einem gleichseitigen Dreieck positioniert. Der Abstand 
zwischen den Ankern beträgt 35 cm, 17cm und 7 cm. Die Regelung wird 
pauschal nach 50 Schritten abgebrochen. Die Ergebnisse sind in Abb. 6.9 
dargestellt. 
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(c) Geschätzte Orientierung 6 A: 


Abbildung 6.9 Trajektorie, geschätzte Größe 5, und geschätzte Orientierung 6, des 
Ankers für verschiedene Abstände. Bei durchgezogenen Linien wird das Modell nach 
Abschnitt 5.1.5 verwendet. Die gestrichelten Linien verwenden die Rohausgabe des U-Net. 
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Unter Verwendung des Modells wird immer der größte detektierte An- 
ker für die Regelung ausgewählt, während die anderen beiden ignoriert 
werden. Dies kann zu abrupten Richtungsänderungen in der Trajektorie 
führen, falls ein anderer Anker als größter erkannt wird. Dies geschieht 
insbesondere beim kleinsten untersuchten Abstand zwischen den An- 
kern, während bei den größeren beiden ein Anker frühzeitig ausgewählt 
wird. In allen drei Fällen konvergiert hier der Regler. 

Ohne Modell scheint der Regler ebenfalls für die Abstände 7cm und 
35 cm zu konvergieren. Allerdings ist nur für 35 cm eine echte Konver- 
genz festzustellen, da ein Anker ausgesucht wird und die anderen beiden 
Anker aus dem Bild verschwinden. Für einen Abstand von 7 cm werden 
die drei Objekte als ein großer disjunkter Anker interpretiert. Infolge- 
dessen können Merkmale geschätzt werden, deren Fehler durch den 
Regler minimiert werden. Jedoch führt diese Minimierung nicht zu der 
gewünschten Positionierung der Kamera. Bei einem Abstand von 17cm 
konvergiert der Regler nicht, da die Schätzung der Orientierung keine 
sinnvollen Ergebnisse liefert, da durch die Konstellation der Objekte die 
geschätzte Orientierung abhängig von der Blickrichtung der Kamera ist. 

Dieser Versuch zeigt, dass das Ankermodell in Fällen, in denen meh- 
rere Anker im Bild sichtbar sind, der Rohausgabe des U-Net deutlich 
überlegen ist. Dieser Effekt ist noch deutlicher, wenn fremde Objekte 
in der Szene enthalten sind, für die fälschlicherweise eine Ankermaske 
geschätzt wird, die aber keine Komponenten enthält, da diese durch das 
Ankermodell ignoriert werden. 


6.2.6 Evaluation des realen Systems 


In diesem Abschnitt wird der Einsatz des Reglers in einer realen Umge- 
bung untersucht. Hierzu wird ein UR1 0-Roboter mit einer Zivid One 
Plus S Kamera am Endeffektor verwendet, die Tiefeninformationen 
über Streifenlichtprojektionen schätzt. Der Roboterarm wird über die 
urx python-Bibliothek nach der IEEE-Norm 802.3 (Ethernet) ange- 
steuert. Die Kamera wird über die zivid python-Bibliothek via USB 
3.0 angesteuert und wird mithilfe eines Schachbrettmusters nach [164] 
bzgl. des Roboters kalibriert. Darüber hinaus werden die von Zivid 
bereitgestellten Rausch- und Ausreißerunterdrückungsverfahren einge- 
setzt. Aufgrund der Selbstkalibrierung der Kamera ist keine Kalibrie- 
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rung der Kameraparameter notwendig. Für die Aufnahme eines Tie- 
fenbildes werden mehrere Aperturgrößen verwendet, die automatisch 
ermittelt werden. Dies verlangsamt zwar die Regelung, aber verbessert 
dafür die Schätzung des Tiefenbildes. Die Auflösung der Kamera be- 
trägt 1.920 x 1.200 Pixel sowohl für das RGB- als auch für das Tiefenbild. 
Als Anker wird ein Anker eines Anlassermotors von Bosch verwendet. 
Um die Reflexionen des Kameralichtes zu vermindern, wird der Anker 
auf ein Material mit diffusen Reflexionseigenschaften gelegt. Der Ge- 
samtaufbau und eine durch die Zivid aufgenommene Punktwolke des 
verwendeten Ankers sind in Abb. 6.10 illustriert. 


(a) Gesamtaufbau (b) Punktwolke des verwendeten Ankers 


Abbildung 6.10 Der Gesamtaufbau des Versuchs (links) besteht aus einem UR10-Roboter 
mit einer Zivid-Kamera, der auf einem Tisch mit metallischer Oberfläche der Größe 1 m 
x 1m liegt. Der verwendete Anker (rechts) stammt aus einem Anlassermotor von Bosch. 
Das Bild zeigt eine aus dem Tiefenbild rekonstruierte Punktwolke des Ankers. 


Der Regler verwendet die Neigung der Tischplatte für die Bestimmung 
von |w,, wel, da sich dieses Merkmal als robuster als das Kantenmerk- 
mal - insbesondere bei der gegebenen Ankerform — herausgestellt hat 
und die Symmetrieachse des Ankers parallel zur Tischebene ist. Au- 
ßerdem wird das Ankermodell mit digitalem Zoom (VMZ) verwendet. 
Fir die Eingabe in das U-Net wird das Bild auf ein Quadrat geschnit- 
ten und auf 336 x 336 Pixel heruntergetastet. Die geforderte Größe s% 
des Ankers wird ggf. adaptiv verkleinert, um den Mindestabstand der 
Zivid-Kamera zum Objekt von 30 cm einzuhalten. Ansonsten gilt für 
die gewünschte Zielgröße des Ankers im Bild să = 0,10. Um nach der 
Regelung eine möglichst gute Trajektorie zu erhalten, sind möglichst 
geringere Fehlertoleranzen erforderlich. 
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Abbildung 6.11 Trajektorie und geschätzte Merkmale des realen Systems. 


Da in der Punktwolke trotz Verwendung der Ausreißerunterdrückung 
dennoch Ausreißer und Punkte ohne Tiefeninformationen auftreten, 
wird für die Tiefenschätzung nicht wie in der Simulation die Tiefe des 
Mittelpunkts der geschätzten Ankermaske verwendet, sondern der Me- 
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dianwert der Tiefenkarte der Zivid-Kamera über ein Fenster der Größe 
21 x 21. Darüber hinaus wird die Differenz aus geschätzter Tischebene 
und Tiefenkarte dazu verwendet, um die Segmentierung zu verbessern. 

Die Ergebnisse sind in Abb. 6.11 dargestellt. Hierbei wird der Abstand 


di, a = 4/2} a(t) + y? a(t) der Koordinaten des geschätzten Punktmerk- 


mals [£, A, %1,4]' zum Ursprung dargestellt. Es ist ein leichtes Rauschen 
bei der geschätzten Position und Größe des Ankers im Bild feststellbar. 
Dieses ist auf kleine Fehler bei der Segmentierung durch Schatten, eine 
nicht festziehbare Halterung der Kamera am Endeffektor und Fehler in- 
folge von Reflexionen des Streifenlichtes zurückzuführen. Die Merkmale 
konvergieren innerhalb von zehn Schritten gegen ihren jeweiligen Ziel- 
wert. Aufgrund des Rauschens sind zwölf weitere Schritte notwendig, 
um in den Toleranzbereich der Merkmalsfehler zu gelangen. Insgesamt 
ist aber eine stabile Regelung möglich. 


6.3 Fazit 


In diesem Kapitel werden das U-Net für die Segmentierung von Ankern 
und ein darauf aufbauender bildbasierten Regler beschrieben. Da nur 
eine geringe Anzahl an Lerndaten vorhanden ist, wird das U-Net beim 
Training mit stark augmentierten Daten trainiert, die sowohl klassische 
Bildverarbeitungsoperationen als auch Methoden der Domänenrando- 
misierung enthalten. Trotz möglicher logischer Widersprüche bei der 
vorliegenden Segmentierungsaufgabe liefert eine sigmoide Aktivierung 
der letzten Schicht die besten Resultate bzgl. der geschätzten Masken 
der Segmentierung. Das Konkatenieren von Kanteninformationen ver- 
bessert den gSDK leicht. Varianzuntersuchungen zeigen, dass das U-Net 
sehr robust gegenüber Variationen von Helligkeit, Orientierung, Position 
und Kontrast ist. Die Robustheit geht über die durch Augmentierung 
gezeigten Variationen hinaus. Letzteres gilt nicht für die Skalierung, da 
ein Anker nur im durch die Augmentierung gegebenen Bereich vollstän- 
dig erkannt wird. Außerhalb dieses Bereichs ist aber die Ankermaske 
größtenteils erkennbar. 

Um gegenüber diesen Degradierungen sowie fluktuativen Konstellatio- 
nen robuster zu werden, wird die Ausgabe durch einen digitalen Zoom 
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und die Verwendung eines Modells stabilisiert. Ferner führt das Modell 
beim Auftreten mehrerer Objekte im Bild nicht zu einer Divergenz. 

Der bildbasierte Regler bildet mit dem verarbeiteten Segmentierungser- 
gebnis einen Gradienten, mit dem eine Kamera in gewtinschter Weise zu 
einem Objekt ausgerichtet werden kann. Der Regler ist robust gegenüber 
Rauschen in Bezug auf die detektierten Merkmale und die Parameter der 
Kameramatrix. Bspw. kann ein suboptimales Kantenmerkmal statt der 
Schätzung der Bodenebene auch für die Regelung verwendet werden. 
Trotz auftretender Schwierigkeiten wie Reflexionen und Schatten im 
realen System zeigt der Regler auch hier ein robustes Verhalten. 

Ausgehend von der gefundenen Position kann eine Trajektorie - im 
Beispiel des Ankers ist dies ein Halbkreis — ermittelt werden, um das 
Objekt abzuscannen und nach Irregularitäten auf der Oberfläche zu 
suchen. 
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Im Rahmen dieser Arbeit wurde der Einsatz von konvolutionären neu- 
ronalen Netzen in der industriellen Bildverarbeitung betrachtet. Die 
vorliegende Arbeit unterteilt sich in den Entwurf effizienter neuronaler 
Netze für Klassifikationsaufgaben und die Entwicklung eines bildba- 
sierten Reglers, bei dem klassische Bildverarbeitung mit Methoden des 
maschninellen Lernens kombiniert werden. 


7.1 Effiziente CNNs 


Hinsichtlich Genauigkeit und Rechenaufwand effiziente CNNs erlauben 
eine ökonomisch sinnvolle Implementierung auf mobilen Endgeräten 
oder FPGAs. Bezüglich der Genauigkeit wurde zunächst der Einfluss 
der Chargengröße beim Training mit Augmentierung untersucht. Die Er- 
gebnisse deuten darauf hin, dass bei einer hinreichend guten Augmentie- 
rungsstrategie die erzielte Genauigkeit durch eine größere Chargengröße 
verbessert wird, wenn die Anzahl an Iterationen pro Durchlauf konstant 
ist. Dies ist mit der genaueren konsistenten Schätzung des Gradienten 
verbunden. 

Ebenso konnte die Genauigkeit durch die Kombination von Vorver- 
arbeitung und Augmentierung verbessert werden. Hierzu wurden die 
Vorverarbeitung bzw. Bildverbesserung als normalisierender und die 
Augmentierung mit einem abgewandelten faster-AutoAugment-Verfahren 
als integrativer Weg zum Erstellen invarianter Merkmale nach ScHhuLz- 
MirsachH [137] interpretiert. Für die Vorverarbeitung wurde das aSVST- 
Verfahren entwickelt, bei dem datensatzspezifisch und gradientenbasiert 
nach der besten Kombination verschiedener Bildverbesserungsverfah- 
ren gesucht wird. Anhand der Beispieldatensätze wurde gezeigt, dass 
vorhandene irrelevante Informationen wie bspw. Farbe bei einem Zif- 
ferndatensatz durch aSVST stark reduziert werden, während relevante 
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Informationen wie Konturen und Risse bei Stahloberflächen verstärkt 
werden. Infolgedessen konnte eine Verbesserung der Genauigkeit erzielt 
werden. Auch wenn der Gewinn an Genauigkeit durch Augmentierung 
hoher ist als durch aSVST, hat sich letzteres bei Redundanzanalysen als 
ressourcensparender erwiesen. Die Kombination beider Verfahren hat 
gezeigt, dass sich beide komplementar in der Auswahl ihrer Operationen 
verhalten und somit die resultierenden CNNs gegenüber einer höheren 
Anzahl an Merkmalen invariant sind, was ebenfalls zu einer höheren Ge- 
nauigkeit führte. Ferner war hierdurch eine höhere Resilienz gegenüber 
Angriffen auf den Klassifikator feststellbar. 

Durch die Verwendung der in dieser Arbeit vorgestellten statischen 
8-Bit-Festkomma-Quantisierung ist auf entsprechender Hardware eine 
erhebliche Reduktion von Rechenkapazitäten möglich, welche mit einem 
geringen Verlust an Genauigkeit erkauft wird. Das Verfahren basiert 
auf dem Skalieren von Gewichten mit Skalierungsfaktoren, die in ei- 
nem Vortrainingsschritt bestimmt werden müssen. Es wurde anhand 
von Histogrammen gezeigt, dass das Verfahren gewisse Anforderungen 
an die Breite des CNN stellt. Die Quantisierung wurde außerdem mit 
kürzeren Bitlängen erprobt, wobei hier der Verlust an Genauigkeit eine 
Feinabstimmung der Gewichte erfordert. 

Die vorangegangenen Untersuchungen hinsichtlich der Quantisierung 
und der Eigenschaften der Datensätze haben gezeigt, dass eine optima- 
le Topologie von zwei Faktoren abhängt: Während die Kapazität eines 
CNNs, d.h. die Tiefe und Breite, von der Komplexität des Lerndaten- 
satzes abhängt, deutet das Quantisierungsverfahren auf eher schmale 
und tiefe CNNs hin. Daher wurde im Rahmen dieser Arbeit ein me- 
taheuristisches Verfahren entwickelt, das in die Verarbeitungskaskade 
aus Vorverarbeitung, Augmentierung und Quantisierung eingebettet 
wurde. Mit der erzielten Genauigkeit als Fitnessfunktion und der Anzahl 
an MAC-Operationen und Gewichten als Strafterme wurde dabei nach 
Topologien gesucht, die auf einem handelsüblichen FPGA implementiert 
werden können. Im Ergebnis wurden für die verschiedenen Datensätze 
die prognostizierten tiefen, schmalen CNNs gefunden. 
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Abbildung 7.1 Erzielter Testfehler auf dem CIFAR-10-Datensatz abhängig von der Anzahl 
der Parameter für verschiedene CNN-Iopologien [30, 48, 63, 92, 104, 127, 131, 139, 145, 155, 
172] und eigene Verfahren mit (rot) und ohne (grün) Quantisierung. Bei nicht quantisierten 
CNNs bezeichnet +V die Verwendung von aSVST und +A die Verwendung von FAARO. 
Quantisierte Netze verwenden beide Verfahren. Mit * werden CNNs bezeichnet, auf die 
Channel-Pruning angewendet wurde. Das in dieser Arbeit verwendete VGG-16-Netz hat 
aufgrund des Weglassens der vollständig verbundenen Schichten weniger Parameter als 
das Original. Mit MH ist das Ergebnis der Metaheuristik gekennzeichnet. 


Die sich in den einzelnen Verfahren dieser Arbeit ergebenen Topo- 
logien sind in Abb. 7.1 in die Grafik aus Kapitel 1 eingefügt. Einerseits 
wird durch aSVST-Vorverarbeitung und FAARO-Augmentierung der 
Testfehler verringert und andererseits wird durch Channel-Pruning, die 
Metaheuristik oder eine kleinere Topologie die Anzahl an Parametern um 
eine Größenordnung reduziert. Durch die Quantisierung und Channel- 
Pruning steigt jedoch der Fehler geringfügig an. Insgesamt ergibt sich 
eine neue Klasse an ressourcensparenden, aber dafür relativ performan- 
ten CNN-Topologien, die teilweise bessere Genauigkeiten als GoogleNet 
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oder ResNet-110 fiir CIFAR-10 liefern bei deutlich geringerem Speicherbe- 
darf der Inferenz. Dies erméglicht die Implementierung der Inferenz auf 
den rund 7 MB des Block-RAM eines Xi 1 inx7—FPGAs. Für industrielle 
Datensätze konnten ähnliche Resultate erzielt werden. 


7.2 Robotergestutzte Inspektion 


Im zweiten Teil dieser Arbeit wurde ein Verfahren vorgestellt, das eine 
bildbasierte Regelung eines Roboterarms mit einer Tiefenbildkamera an 
dessen Endeffektor erlaubt. Das Verfahren wurde für Anker von Elektro- 
motoren entworfen. Hierzu wurde ein Datensatz von verschiedenartigen 
Ankern erstellt, bei dem für den Anker und seine relevanten Kompo- 
nenten Masken als Grundwahrheit für eine semantische Segmentierung 
erstellt wurden. Mithilfe dieser Daten wurde ein U-Net trainiert, wobei 
verschiedene Erweiterungen des U-Net und Augmentierungsstrategien 
analysiert wurden, um den negativen Auswirkungen aufgrund der ge- 
ringen Anzahl an Bildern des Datensatzes entgegenzuwirken. Um die 
Ausgabe zu stabilisieren, wurde ein adaptives Ankermodell entwickelt 
und ein digitaler Zoom realisiert, der die Tatsache ausnutzt, dass der 
Anker bei einer ungünstigen Größe im Bild nur rudimentär erkannt wird. 

Die Ausgabe des U-Net dient dem bildbasierten Regler, um die Lagepa- 
rameter des Ankers zu schätzen, auf dessen Grundlage ein Regelschritt 
berechnet wird. Diese Parameter sind die Position im Bild, die relative 
Größe und die Orientierung. Um die Winkel zwischen optischer Achse 
der Kamera und der Rotationsachse des Ankers auszuregeln, hat sich 
die Schätzung der relativen Neigung der Bodenebene als vorteilhaft er- 
wiesen. Diese Parameterwahl erlaubte es, einen entkoppelten und damit 
stabilen Regler zu entwerfen, der simulativ und in einer realen Umge- 
bung evaluiert wurde. 


7.3 Fazit und Ausblick 


Maschinelles Lernen und insbesondere konvolutionäre neuronale Netze 
sind aufgrund ihrer hohen Performanz aus der heutigen Bildverarbei- 
tung nicht mehr wegzudenken. Jedoch ist der Einsatz von CNNs in 
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sicherheitskritischen Bereichen und im industriellen Umfeld noch um- 
stritten, da der Black-Box-Charakter von CNNs die Interpretation ihres 
Klassifikationsverhaltens erschwert und bereits relativ einfache Angriffe 
ihre Klassifikationsleistung erheblich schmälern können. Im industriel- 
len Umfeld treten zusätzlich Bedenken zutage, dass vertrauliche Details 
über die Produktion an die entsprechenden Soft- bzw. Hardwareanbieter 
gelangen könnten. 

Im ersten Teil dieser Arbeit wurde nicht nur ein Framework für den 
Entwurf von CNNs für mobile Systeme bzw. FPGAs insbesondere für 
industrielle Anwendungen vorgestellt, sondern auch untersucht wie sich 
die Verarbeitung der Trainingsdaten sowohl positiv auf die Genauigkeit 
als auch auf die Resilienz gegenüber Angriffen auswirkt. Mithilfe der 
Interpretation von Vorverarbeitung und Augmentierung als Konstrukti- 
on invarianter Merkmale kann dieses Verhalten teilweise erklärt werden. 
Auch wenn hierdurch nicht alle Unklarheiten neuronaler Netze beseitigt 
werden konnten, kann die Interpretierbarkeit der Trainingsdaten schon 
zu einer höheren Akzeptanz in den oben genannten Bereichen führen, 
da ausgeschlossen werden kann, dass ein CNN aufgrund bestimmter De- 
tails wie z.B. Wasserzeichen in einzelnen Bildern, die auswendig gelernt 
wurden, eine Entscheidung trifft. 

Die Kombination von konventioneller Bildverarbeitung mit neurona- 
len Netzen, wie sie im zweiten Teil der vorliegenden Arbeit beschrieben 
wird, birgt ein riesiges Potential: Einerseits, da Fehler von CNNs durch 
Plausibilitätsbetrachtungen reduzierbar sind und andererseits aufgrund 
der besseren Interpretierbarkeit durch die konventionellen Anteile. Hier 
eröffnen sich neue Forschungsgebiete. Bspw. können klassische Verfah- 
ren für Detektionsaufgaben, die auf einfachen Modellen basieren, durch 
die Fähigkeiten von neuronalen Netzen, auf Grundlage der Statistiken 
der Lerndaten optimale Entscheidungen zu liefern, verbessert werden. 
Hierbei sind nicht nur sequentielle Verarbeitungsketten möglich, sondern 
auch parallele Subprozesse, die Daten, Merkmale und Entscheidungen 
in Zwischenschritten miteinander fusionieren. 
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A Anhang 


A.1 Vergleich Online- und Offline-Augmentierung 
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(a) Testgenauigkeit. (b) Rechendauer. 


Abbildung A.1 Testgenauigkeit und Rechendauer für die Chargengrößen 32 und 256 
bei Offline-Augmentierung im Vergleich zu Online-Augmentierung. Die gestrichelte Linie 
entspricht der Testgenauigkeit bei Online-Augmentierung. 


Abb. A.1 zeigt die Testgenauigkeit und die Rechendauer beim Trai- 
ning mit 100 Durchläufen des CIFAR-10-Datensatzes aufeiner GeForce 
2080 TI mit einer Offline-Augmentierung mit den Operationen nach 
[30]. Bei einer Offline-Augmentierung wird der Datensatz vor dem Trai- 
ning mit den entsprechenden Operationen vervielfältigt, während bei 
der Online-Augmentierung die Bilder während des Trainings stochas- 
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tisch verarbeitet werden. Die Anzahl der Iteration pro Durchlauf ist fest, 
d.h. unabhängig von N, (vgl. Abschnitt 3.1 und 4.2). 

Während die Rechendauer mit der Größe des Datensatzes steigt, ver- 
laufen die Kurven der Testgenauigkeit wie Sättigungskurven, die sich der 
jeweiligen Genauigkeit der Online-Augmentierung anpassen. Bei niedri- 
geren Chargengrößen tendiert die Genauigkeit, früher in Sättigung zu 
gehen. Bei Ng = 32 reicht ein Vervielfältigungsfaktor von 8 bereits aus, 
wohingegen bei Ng = 256 der Faktor 64 notwendig ist, welcher nicht nur 
einen enormen Speicherplatz benötigt, sondern auch die Rechendauer 
extrem erhöht. 
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Abbildung A.2 Rechendauer abhängig von der Chargengröße bei Online-Augmentierung. 
Die gestrichelte Linie entspricht der theoretischen Rechendauer, die für eine GPU ohne 
Speicherlimitierung und eine parallelisierte Augmentierung auf der CPU erreicht wird. 


Abb. A.2 zeigt, dass die Rechendauer bei Online-Augmentierung für 
Ng < 32 unabhängig von der Chargengröße ist. Für Ng > 32 steigt die 
Rechendauer linear im doppelt-logarithmischen Graphen an. Hier ist die 
Augmentierung und die Verarbeitung der Bilder zu Chargen, die beide 
auf der CPU ausgeführt werden, der Flaschenhals im Training. 
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A.2 Beispiele des aSV- und aSVST-Verfahrens 


Im Folgenden werden für jeden der vier untersuchten Datensätze je- 
weils zwei Beispiele für die Varianten des Vorverarbeitungsverfahren 
aus Abschnitt 3.2.2 sowie deren Approximationen gezeigt. Rein optisch 
unterscheiden sich die vorverarbeiteten Bilder kaum. Verglichen mit dem 
jeweiligen Originalbild (linke Spalte) ist der Unterschied jedoch deutlich. 
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Abbildung A.3 Beispiele für die vorverarbeiteten Bilder nach dem aSV- bzw. aSVST- 
Verfahren mit und ohne Approximierung. Von oben nach unten sind jeweils zwei Beispiele 
der Datensätze CIFAR-10, SVHN, NEU und RSDDs. Jede Zeile zeigt (von links nach rechts) 
das Originalbild, das Ergebnis des aSV-Verfahrens, das Ergebnis des approximierten aSV- 
Verfahrens, das Ergebnis des aSVST-Verfahrens und das Ergebnis des approximierten 
aSVST-Verfahrens. 
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